4. ネットワーク・アウトプットの解釈〔2〕
すでに述べたように、多項条件付密度には、エキスパート・アウトプット・ユニットの活動関数の適当な選択は、soft-max関数である。(19)式の中で、ajcはしきい値になる前のエキスパート・ネットワーク・アウトプットである。この場合、yjcが従属的なものであるので、ajcの導関数を取り調べれば、(7)式から:

(22)
soft-max関数の原因で、(22)式の第二項目の偏微分が、ゲイト・ネットワーク方程式の中の対照物∂gk/∂zjと似ている(9式の第2項)ことによって、(14)式を導出することができる。
誤差関数E'の式(5)と多項密度φjの定義式(19)を使って(22)式の第1項の偏微分を導出すると、

すなわち、偏微分を計算することと(10)式を使って、

(23)
(22)式を解くための準備として((14)式と(23)式を利用):
(24)
最後のステップで、c-1分類問題によりktk=1が使われた。エキスパート・ネットワークのアウトプットに関しては、微分を0にセットする((24)を(22)式に代入):

(25)
(8)と(25)式を解くことにより、gj (x)とyj (x)を決める(従って、ME誤差関数を最小化する)。ゲイト・ネットワーク・アウトプット(8)に関しては、

それを使うことによって、条件付確率p(t|x)が正規化される。

従って、ME誤差関数が最小になる時ゲイト・ネットワーク・アウトプットは、次の式を満足させる:

(26)
エキスパート・ネットワークのアウトプット(25)に関しては、

従って、ME誤差関数が最小になる時エキスパート・ネットワーク・アウトプットは、次の式を満足させる:

(27)
最後に、(26)と(27)と使って、ME誤差関数を最小化する混合エキスパートのアウトプット・ベクトルを導出することができる:

積分変換と和を求めると:

(28)
ここで、式(10)の事後確率πj (x,t)の和は1である。(28)式の解釈は、ME誤差関数が最小となる時MEのアウトプットyc (x)がターゲイト・データの条件付平均に等しい。これは、二乗和あるいはクロス・エントロピー誤差関数を最小化することに学習されたネットワークのアウトプットと一致する。よく知られている結果として、c-1コーディングにかかわる分類問題では、ターゲット・データの条件付平均は、

従って、MEのアウトプットは、確かにクラスCc に従属するxの事後確率を推定することができる。