多項条件付密度
c-1コーディングに関わる分類問題で、エキスパート条件付密度関数の適当な選択は多項密度である。
(19)
式の中のwjは、さきと同じように、エキスパートjの重みパラメーター・セットである。多項条件付密度では、エキスパート・アウトプット・ユニットの活動関数(activation function)の適当な選択は、soft-max関数(2)である。多項条件付密度では、(19)を使えば、次の式を導出することができる:
(20)
多項条件付密度およびsoft-max活動関数において、次はエキスパート・ネットワークのアウトプット誤差項を与える((14)、(15)と(20)式を(11)式に)。
(21)
従って、エキスパート・ネットワークのアウトプット誤差項は、よく知られている二乗和とクロス・エントロピー誤差関数のためにみいだすものと似ている。しかしこの時、それらの関数のエキストラ重みパラメーターとしての事後確率πjが存在している。例えば、エキスパートとゲイト・ネットワークがガウス条件付密度と線形活動関数を満たすパーセプトロンであれば(よって、エキスパートとゲイト・ネットワークは一般化線形モデル(generalized linear model)である)、エキスパート・ネットワークの重みのアップ・データwjは:
によって、
ならびに、ゲイト・ネットワークの重みのアップ・データvjは:
ここでは、ηが学習レート(learning rate)を意味する。当然、このセクションで得た勾配は、共役勾配アルゴリズム(conjugate gradient algorithms)や、準ニュートン法(quasi-Newton methods)などのようなよりパワフルな非線形最適化テクニックにも使える。