勾配降下

　さまざまな最適化方法〔8〕（逆伝播法、直線探索法、準ニュートン法）は、勾配の計算に基づくものである。フィードフォワードのニューラル・ネットワークにおいて、これは特に誤差関数の偏微分をネットワーク・アウトプットに関連させる。この偏微分（普通δjで表す）は、逆伝播アルゴリズムの基礎を作る。
ここでBishop氏の結果を再び述べておく（連鎖法則を用いて）：

（9）

事後確率π_j はこのように定義されている：

（10）

ならびに、δ_jk は、Kronecherデルタである。エキスパート・ネットワークでは、

（11）

ここの第2項が、エキスパート・ネットワークのアウトプット・レーヤにおける活動関数（activation function）に依存する。もし、この活動関数が線形一致（y_jc＝a_jc）であれば、従って

（12）

もし、活動関数がsoft-max関数であれば、

（13）

従って、

（14）

E'の定義（5）を使って、（11）式右辺の第1項を求める：

（15）

式の中の最終項が、ノイズモデルφ_jの選択に従属する。この文章の中では、このφ_jは、ガウス条件付密度か多項条件付密度かどちらかとする。