4.　ネットワーク・アウトプットの解釈〔2〕

すでに述べたように、多項条件付密度には、エキスパート・アウトプット・ユニットの活動関数の適当な選択は、soft-max関数である。（19）式の中で、a_jcはしきい値になる前のエキスパート・ネットワーク・アウトプットである。この場合、y_jcが従属的なものであるので、a_jcの導関数を取り調べれば、（7）式から：

（22）

soft-max関数の原因で、（22）式の第二項目の偏微分が、ゲイト・ネットワーク方程式の中の対照物∂g_k/∂z_jと似ている（9式の第2項）ことによって、（14）式を導出することができる。
誤差関数E'の式（5）と多項密度φ_jの定義式（19）を使って（22）式の第1項の偏微分を導出すると、

すなわち、偏微分を計算することと（10）式を使って、

（23）

（22）式を解くための準備として（（14）式と（23）式を利用）：

（24）

最後のステップで、c-1分類問題により∑_kt_k＝１が使われた。エキスパート・ネットワークのアウトプットに関しては、微分を０にセットする（（24）を（22）式に代入）：

（25）

（8）と（25）式を解くことにより、g_j (x)とy_j (x)を決める（従って、ME誤差関数を最小化する）。ゲイト・ネットワーク・アウトプット（8）に関しては、

それを使うことによって、条件付確率p(t|x)が正規化される。

従って、ME誤差関数が最小になる時ゲイト・ネットワーク・アウトプットは、次の式を満足させる：

（26）

エキスパート・ネットワークのアウトプット（25）に関しては、

従って、ME誤差関数が最小になる時エキスパート・ネットワーク・アウトプットは、次の式を満足させる：

（27）

最後に、（26）と（27）と使って、ME誤差関数を最小化する混合エキスパートのアウトプット・ベクトルを導出することができる：

積分変換と和を求めると：

（28）

ここで、式(10)の事後確率π_j (x,t)の和は1である。（28）式の解釈は、ME誤差関数が最小となる時MEのアウトプットy_c (x)がターゲイト・データの条件付平均に等しい。これは、二乗和あるいはクロス・エントロピー誤差関数を最小化することに学習されたネットワークのアウトプットと一致する。よく知られている結果として、c-1コーディングにかかわる分類問題では、ターゲット・データの条件付平均は、

従って、MEのアウトプットは、確かにクラスCc に従属するxの事後確率を推定することができる。