事後確率の推定
n組のインプット・ベクトルxnとターゲイト・ベクトルtn{xn,tn}を用いたデータ学習の最尤原理は、誘導誤差関数に使われている標準な方法である。
ここで、Σnlogp(xn)はパラメータに依存しない、一定値であるので、ネットワーク・パラメータp(xn,tn)とp(xn|tn)の依存関係は、潜在的に残される。これによって、コスト関数が、尤度の負対数に与えられる。
(4)
条件付確率密度の最も適当な選択は問題こどに行われる。回帰問題においては、ガウス・ノイズ・モデル(Gaussian noise model)がしばしば使われる(二乗和誤差関数にかかわる)。c-1コーディング・スキーム(1 of c coding scheme)に関連する分類問題では、多項密度(multinomial density)が最も適当である(クロス・エントロピー誤差関数にかかわる)。ところが、これらの誤差関数の大域的最小値が分類問題に学習された場合、最適的なネットワーク・アウトプットが事後確率に接近するのは、良く知られている。この論文は、混合条件付密度をベースにしたME誤差関数の最小化も、ネットワーク・アウトプットが事後確率を推定することを示している。
最も普通の場合式(3)と式(4)により、最小化されるME誤差関数は次のように定義される:
これは、エキスパートの条件付密度φj (tn| xn)の選択に依存する。
無限データセットの極限には、インプットxとターゲット信号tに関する。期待値を取ることによって、パタンーの無限和を次の積分式で表す:
連続分布の場合:
を最小化するとき、MEのアウトプットの解釈は、ゲイト・ネットワークのアウトプットzj (x)とエキスパート・ネットワークのアウトプットyjc (x)にかかわるEの導関数をゼロにすることによって得られる。これらの方程式の解は、Eが最小の時のgj(x)とyj(x)を表すことになる。
このように定義する:
(5)
与えられたインプットxに対して、次のような二つの式をゼロにセットするのは、興味深い。
ゲイト・ネットワークの場合:
(6)
エキスパート・ネットワークの場合:
(7)
ゲイト・ネットワークのアウトプットにかかわる導関数をゼロにする場合(次のページの式(9)を参照):
(8)
この後、エキスパート・ネットワークの方程式(7)は、エキスパートの混合要素として、多項条件付とガウス条件付密度φjに扱う。