事後確率の推定

n組のインプット・ベクトルxⁿとターゲイト・ベクトルtⁿ｛xⁿ,tⁿ｝を用いたデータ学習の最尤原理は、誘導誤差関数に使われている標準な方法である。

ここで、Σ_nlogp(xⁿ)はパラメータに依存しない、一定値であるので、ネットワーク・パラメータp(xⁿ,tⁿ)とp(xⁿ|tⁿ)の依存関係は、潜在的に残される。これによって、コスト関数が、尤度の負対数に与えられる。

（4）

条件付確率密度の最も適当な選択は問題こどに行われる。回帰問題においては、ガウス・ノイズ・モデル（Gaussian noise model）がしばしば使われる（二乗和誤差関数にかかわる）。c-1コーディング・スキーム（1 of c coding scheme）に関連する分類問題では、多項密度（multinomial density）が最も適当である（クロス・エントロピー誤差関数にかかわる）。ところが、これらの誤差関数の大域的最小値が分類問題に学習された場合、最適的なネットワーク・アウトプットが事後確率に接近するのは、良く知られている。この論文は、混合条件付密度をベースにしたME誤差関数の最小化も、ネットワーク・アウトプットが事後確率を推定することを示している。

最も普通の場合式(3)と式(4)により、最小化されるME誤差関数は次のように定義される：

これは、エキスパートの条件付密度φ_j (tⁿ| xⁿ)の選択に依存する。
無限データセットの極限には、インプットxとターゲット信号tに関する。期待値を取ることによって、パタンーの無限和を次の積分式で表す：

連続分布の場合：

を最小化するとき、MEのアウトプットの解釈は、ゲイト・ネットワークのアウトプットz_j (x)とエキスパート・ネットワークのアウトプットy_jc (x)にかかわるEの導関数をゼロにすることによって得られる。これらの方程式の解は、Eが最小の時のg_j(x)とy_j(x)を表すことになる。

このように定義する：

（5）

与えられたインプットxに対して、次のような二つの式をゼロにセットするのは、興味深い。
ゲイト・ネットワークの場合：

（6）

エキスパート・ネットワークの場合：

（7）

ゲイト・ネットワークのアウトプットにかかわる導関数をゼロにする場合（次のページの式(9)を参照）：

（8）

この後、エキスパート・ネットワークの方程式（7）は、エキスパートの混合要素として、多項条件付とガウス条件付密度φ_jに扱う。