勾配降下


   さまざまな最適化方法〔8〕(逆伝播法、直線探索法、準ニュートン法)は、勾配の計算に基づくものである。フィードフォワードのニューラル・ネットワークにおいて、これは特に誤差関数の偏微分をネットワーク・アウトプットに関連させる。この偏微分(普通δjで表す)は、逆伝播アルゴリズムの基礎を作る。
 ここでBishop氏の結果を再び述べておく(連鎖法則を用いて):


(9)


 事後確率πj はこのように定義されている:


(10)


 ならびに、δjk は、Kronecherデルタである。エキスパート・ネットワークでは、


 (11)


 ここの第2項が、エキスパート・ネットワークのアウトプット・レーヤにおける活動関数(activation function)に依存する。もし、この活動関数が線形一致(yjc=ajc)であれば、従って


 (12)


 もし、活動関数がsoft-max関数であれば、


(13)


 従って、


(14)


 E'の定義(5)を使って、(11)式右辺の第1項を求める:



(15)



 式の中の最終項が、ノイズモデルφjの選択に従属する。この文章の中では、このφjは、ガウス条件付密度か多項条件付密度かどちらかとする。



next contents