勾配降下
さまざまな最適化方法〔8〕(逆伝播法、直線探索法、準ニュートン法)は、勾配の計算に基づくものである。フィードフォワードのニューラル・ネットワークにおいて、これは特に誤差関数の偏微分をネットワーク・アウトプットに関連させる。この偏微分(普通δjで表す)は、逆伝播アルゴリズムの基礎を作る。
ここでBishop氏の結果を再び述べておく(連鎖法則を用いて):
(9)
事後確率πj はこのように定義されている:
(10)
ならびに、δjk は、Kronecherデルタである。エキスパート・ネットワークでは、
(11)
ここの第2項が、エキスパート・ネットワークのアウトプット・レーヤにおける活動関数(activation function)に依存する。もし、この活動関数が線形一致(yjc=ajc)であれば、従って
(12)
もし、活動関数がsoft-max関数であれば、
(13)
従って、
(14)
E'の定義(5)を使って、(11)式右辺の第1項を求める:
(15)
式の中の最終項が、ノイズモデルφjの選択に従属する。この文章の中では、このφjは、ガウス条件付密度か多項条件付密度かどちらかとする。