結果

シミュレーションに使われたデータは、三次元空間で動いている4つの関節を持つロボット（図8）の腕をシュミレーションすることから得られた。そのネットワークは、その腕のフォーワード・ダイナミクスを学習しなければならない。すなわち、それは状況次第で関節の回転モーメントから関節の加速を図式することである。その腕の状況は、8つの実際に評価された変数によって、コード化される。つまり、4つの位置（rad）と４つの角運動速度（rad／sec2）である。その回転モーメントは4つの実際に評価された変数としてコード化された。（N・ｍ）このように、12の学習システムに対するインプットがあった（図9）。この12のインプットされた変数が与えられることによって、そのネットワークは関節で4つの加速を予測しなければならない。（rad／sec2）この図式化は、回転する座標システムと腕の連結間の相互作用回転モーメントのために非常に非線形である。
学習させるために15000のデータポイントを、テストするために5000のデータポイントを記述した。各エポックについて、テストセットで相対誤差を算定した。相対誤差は、もし学習者がすべてのデータポイントについての加速の中間値をアウトプットすることになっていたら得られたであろう平均二乗誤差と平均二乗誤差の間の比率として算定される。
二分木構造のパフォーマンスを逆伝播ネットワークのそれと比較した。その階層は、16のエキスパート・ネットワークと15のゲイト・ネットワークを伴った4段階の階層であった（図10）。各エキスパート・ネットワークには4つのアウトプット・ユニットがあり、各ゲイト・ネットワークには１つのアウトプット・ユニットがあった。その逆伝播ネットワークには60の隠れたユニットがあったが、それはその階層とほぼ同じ、ネットワークにおけるパラメータの数をもたらす。
HMEアーキテクチャは、重み付最小二乗問題を解決するためCholesky分析法を利用することによって、アルゴリズム１と２によって学習された。そのHMEアルゴリズムには、フリーパラメータがないことを注意せよ。逆伝播ネットワークのためのフリーパラメータ(学習率と運動量期間)はパラメータ・スペースの普通の捜索に基づいて選択された（0.00001と0.15という数値はこのパラメータのために選択された）。逆伝播アルゴリズムを使っている局部最小値には問題点があった。10回のうちの5回は｢適正な｣誤差値に収束し得なかった（次の項で報告したとおり、オンライン逆伝播のケースではそのような問題点には遭遇しなかった）。彼らは、｢適正な｣誤差値に収束した処理についてだけの平均収束時間と平均相対誤差を報告した。両HMEアルゴリズムの10回の処理すべてが、｢適正な｣誤差値に収束した。

図11. 逆伝播ネットワークのテストセット
における相対誤差と４段階HME
アーキテクチャは、バッチ・
アルゴリズムにともなって下降
した。その曲線の最小値におけ
る標準誤差は、逆伝播について
は0.013、HMEについては0.002
である。

図11は、階層のパフォーマンスと逆伝播ネットワークを示している。グラフの水平軸はエポックにおける学習時間を示す。垂直軸はテストセットにおける平均相対誤差によって測定されたものとして一般化パフォーマンスを示す。

表1. 相対誤差の平均値と
バッチ・アルゴリズム
の収束のために必要と
されたエポックの数。

表1は、相対誤差曲線の最小値で測定された両アーキテクチャの平均相対誤差を報告している(最小値は、相対誤差における一連の3つの連続増加によって定義された)。最高の線形近似値とCART(Classification and Regression Tree)アルゴリズムとMARS(Multivariate adaptive regression splines)アルゴリズムについての相対誤差値をも報告する。CARTとMARSの両方が、各アウトプット変数について一回ず4回作動された。全部の相対誤差を計算するために、この4つの算定数値からの結果を結合した。CARTの2つのヴァージョンが作動された。一つは、その中でスプリットは軸に平行するように制限され、またもう一つは、その中でインプット変数の線形コンビネーションが認められた。
MARSアルゴリズムの2つの構造パラメータ、すなわち基本機能の最高数と相互作用期間の最高数のために作られた選択を必要とする。MARSにおける各基本機能は、HMEアーキテクチャにおける単体エキスパートによって実行された機能に大まかに対応しながら、インプット・スペースの直方体部分の上に限定された線形面を生んでいる。それゆえ、4段階階層において16のエキスパートに対応するため、16の基本機能の最高値を選んだ。相互作用（mi）の最高数を選択するために、MARSのパフォーマンスをmi＝1,2,3,6, および 12と比較し、そして最高のパフォーマンス(mi＝3)を生じた数値を選択した。
相互作用のアルゴリズムのために、収束に必要なエポックの数を報告する。このアルゴリズムの学習曲線が一般的にたいへん長い尾を持つので、収束現象を、相対誤差が最小値の5％以内に落ちた最初のエポックと定義した。
研究した全てのアーキテクチャは、最高線形近似値よりも著しく良く機能した。期待したとおりに、線形コンビネーションを伴うCARTアーキテクチャは、軸に平行なスプリットを伴うCARTアーキテクチャより良く機能した。HMEアーキテクチャは、MARSとCARTの上方で適度な進歩をもたらした。逆伝播は、(収束現象の問題点を無視して)テストされたアルゴリズムの最低の相対誤差を生み出した。
相対誤差におけるこのような相違は、いくぶん注意して取り扱われるべきである。いくつかのアーキテクチャ（例えば、逆伝播）のためのフリーパラメータをセットする必要性と、構造的な選択(例えば、隠れたユニットの数、基本機能の数、エキスパートの数)をなす必要性が、アーキテクチャを調和させることを難しくしている。例えば、HMEアーキテクチャは逆伝播ネットワークに存在していないパラメータ依存を必要とする。木のハイレベルのゲイト・ネットワークは、木の枝の一本を、木のその枝のパラメータを役に立たなくさせることで、｢摘み取る｣ことができる。加工されていないパラメータ・カウントは、アーキテクチャの容量へのごくおおざっぱな手引書にすぎない。もっと正確な測定(例えば、VCディメンション)が、決定的な量的な比較がなされうる前に、必要とされる。
収束期間における逆伝播とHMEの相違点は、もっと決定的である。両方のHMEアルゴリズムが、確実にマグニチュードの2階級以上、逆伝播よりも速く収束する。

図12. HMEアーキテク
チャについての一
連のヒストグラム木。
各ヒストグラムは、
木の各結節での学
習セットを越える後
方の確率の分布を
示している。

図12で示されるように、HMEアーキテクチャはグラフによる調査にうまく役立っている。この図は、木の各結節における学習セットを越える後方の確率分布の継続時間を表示している。学習が行われる前、エポック0では、各結節におけるほとんどの後方の確率が学習セットを約0.5越えている。学習が進みながら、ヒストグラムの幅が広くなって、結局は事後確率がほとんどの学習パターンについて1か0である二相の分布に近づいて行く。このような展開は、ゲイト・ネットワークによって適合されているますます鋭いスプリットを表示している。そのスプリットは、木の比較的低いレベルよりも比較的高いレベルでずっと迅速に形成されるようになる傾向があるということに注意せよ。

図13. HMEアーキテク
チャの「逸脱木」。
各分岐点は刈り取ら
れた木の4つのアウ
トプットユニットの平
均二乗誤差(MSE)
を示している。それ
は対数目盛で、ほぼ
3桁分の大きさ(1000
倍)をカバーする。

図13は、HMEアーキテクチャがデータ・セットに適合する方法を理解するのに役に立つもうひとつのグラフによる方策を示している。彼たちが｢逸脱木｣（deviance tree）と呼んでいる。この図は、逸脱(平均二乗誤差)を示していて、それは木の各レベルにおいて、もしその木がそのレベルで刈り取られたら得られるだろう。わたしたは、与えられたレベルでの刈り取られた木を、そのレベルでの各ノンターミナルをそのノンターミナル以下のエキスパートの加重値平均であるマトリックスと置き換えることによって、構成する。その加重値は、学習セットを越えた各エキスパートと関係する総計優先確率である各アウトプット・ユニットについての誤差はその際、テストセットに刈り取られた木を通過させることによって計算される。図で示されたとおり、逸脱は比較的深い木にとってはさらに小さい。（各分岐点での縦座標は対数目盛であることに注意せよ。）木の右側枝の逸脱は、左側枝のそれよりも大きい。このような情報は、調査データ解析の目的やモデル選択に役に立ち得る。