事後確率の推定


 n組のインプット・ベクトルxnとターゲイト・ベクトルtn{xn,tn}を用いたデータ学習の最尤原理は、誘導誤差関数に使われている標準な方法である。







 ここで、Σnlogp(xn)はパラメータに依存しない、一定値であるので、ネットワーク・パラメータp(xn,tn)とp(xn|tn)の依存関係は、潜在的に残される。これによって、コスト関数が、尤度の負対数に与えられる。

      (4)


 条件付確率密度の最も適当な選択は問題こどに行われる。回帰問題においては、ガウス・ノイズ・モデル(Gaussian noise model)がしばしば使われる(二乗和誤差関数にかかわる)。c-1コーディング・スキーム(1 of c coding scheme)に関連する分類問題では、多項密度(multinomial density)が最も適当である(クロス・エントロピー誤差関数にかかわる)。ところが、これらの誤差関数の大域的最小値が分類問題に学習された場合、最適的なネットワーク・アウトプットが事後確率に接近するのは、良く知られている。この論文は、混合条件付密度をベースにしたME誤差関数の最小化も、ネットワーク・アウトプットが事後確率を推定することを示している。

 最も普通の場合式(3)と式(4)により、最小化されるME誤差関数は次のように定義される:

  


 これは、エキスパートの条件付密度φj (tn| xn)の選択に依存する。
 無限データセットの極限には、インプットxとターゲット信号tに関する。期待値を取ることによって、パタンーの無限和を次の積分式で表す:


  


 連続分布の場合:


  


を最小化するとき、MEのアウトプットの解釈は、ゲイト・ネットワークのアウトプットzj (x)とエキスパート・ネットワークのアウトプットyjc (x)にかかわるEの導関数をゼロにすることによって得られる。これらの方程式の解は、Eが最小の時のgj(x)とyj(x)を表すことになる。

 このように定義する:


      (5)


 与えられたインプットxに対して、次のような二つの式をゼロにセットするのは、興味深い。
 ゲイト・ネットワークの場合:


(6)


 エキスパート・ネットワークの場合:


(7)


 ゲイト・ネットワークのアウトプットにかかわる導関数をゼロにする場合(次のページの式(9)を参照):


(8)


 この後、エキスパート・ネットワークの方程式(7)は、エキスパートの混合要素として、多項条件付とガウス条件付密度φjに扱う。



next contents