MEの構造〔1〕


図6では、MEネットワークの構造が示されている。三つのエキスパート・ネットワークと一つのゲイト・ネットワークがそれぞれインプット・ベクトルXにアクセスされ、ゲイト・ネットワークが各エキスパートに一つのアウトプットを与える。ゲイト・ネットワークおよびエキスパート・ネットワークの標準選択(standard choices)は、一般化した線形モデル(generalized linear models):yi=wix, gj=vjx とマルチレイヤ・パーセプトロンである。MEのアウトプット・ベクトルは、エキスパート・アウトプットの(ゲイト・ネットワークのアウトプットによる)重み付き平均(weighted mean)である。


  (1)


 ゲイト・ネットワーク・アウトプットgj (X)は、インプットXがエキスパートjに分配される確率と見ればよい。この確率解釈(probabilistic interpretation)を確認するため、ゲイト・ネットワークのアウトプットの活性化関数(activation function)がsoft-max関数に選ばれる。


(2)


 式の中で、zj はしきい値となる前(before thresholding)のゲイト・ネットワークのアウトプットである。このsoft-max関数は、分母によりゲイト・ネットワークのアウトプットの調和を合計し、かつ負ではなくさせることによって、エキスパートの間における競合を実行する。
 MEの確率解釈が、条件付確率分布(conditional probability distribution)における混合モデルの前後関係に与えられ得る。


  (3)


φjはエキスパートjのターゲイト・ベクトルtの条件付確率を表す。ゲイト・ネットワークの中でsoft-max関数を使うことまたは、φjが密度であるという事実は、その分布が標準分布であることを保証する。すなわち、∫p(t|x)dt=1。

(∫p(t|x)dt=∫∑jgi(x)φj(t|x)dt=Σj[gi(x)∫φj(t|x)dt]=Σjgj(x)=1によって)

 次のセクションで簡単にまとめているように、この分布は、勾配降下(gradient descent)あるいは期待値最大化(Expectation-Maximization)(EM)アルゴリズムを使って、最適化できるME誤差関数の基礎となる。



next contents