4. ネットワーク・アウトプットの解釈〔2〕


 すでに述べたように、多項条件付密度には、エキスパート・アウトプット・ユニットの活動関数の適当な選択は、soft-max関数である。(19)式の中で、ajcはしきい値になる前のエキスパート・ネットワーク・アウトプットである。この場合、yjcが従属的なものであるので、ajcの導関数を取り調べれば、(7)式から:


(22)


 soft-max関数の原因で、(22)式の第二項目の偏微分が、ゲイト・ネットワーク方程式の中の対照物∂gk/∂zjと似ている(9式の第2項)ことによって、(14)式を導出することができる。
 誤差関数E'の式(5)と多項密度φjの定義式(19)を使って(22)式の第1項の偏微分を導出すると、






 すなわち、偏微分を計算することと(10)式を使って、


(23)



 (22)式を解くための準備として((14)式と(23)式を利用):


(24)


 最後のステップで、c-1分類問題によりktk=1が使われた。エキスパート・ネットワークのアウトプットに関しては、微分を0にセットする((24)を(22)式に代入):


(25)


 (8)と(25)式を解くことにより、gj (x)とyj (x)を決める(従って、ME誤差関数を最小化する)。ゲイト・ネットワーク・アウトプット(8)に関しては、





 それを使うことによって、条件付確率p(t|x)が正規化される。





 従って、ME誤差関数が最小になる時ゲイト・ネットワーク・アウトプットは、次の式を満足させる:


(26)


 エキスパート・ネットワークのアウトプット(25)に関しては、





 従って、ME誤差関数が最小になる時エキスパート・ネットワーク・アウトプットは、次の式を満足させる:


(27)


 最後に、(26)と(27)と使って、ME誤差関数を最小化する混合エキスパートのアウトプット・ベクトルを導出することができる:





 積分変換と和を求めると:


(28)


 ここで、式(10)の事後確率πj (x,t)の和は1である。(28)式の解釈は、ME誤差関数が最小となる時MEのアウトプットyc (x)がターゲイト・データの条件付平均に等しい。これは、二乗和あるいはクロス・エントロピー誤差関数を最小化することに学習されたネットワークのアウトプットと一致する。よく知られている結果として、c-1コーディングにかかわる分類問題では、ターゲット・データの条件付平均は、



 従って、MEのアウトプットは、確かにクラスCc に従属するxの事後確率を推定することができる。



next contents