next up previous
Next: 学習・利用方法の実例としての文法推論に関する論文紹介(2編) Up: RNNの基本的学習方法について Previous: 教師強制

BPTT・RTRLの比較

Williams,Zipserは様々な方式のRNNの学習に必要な計算量とメモリについて詳細 に比較検討を行った。ユニット数を n としたとき、BPTT法はネットワークを 動作させる時間ステップを T とすると、 O(nT) の変数と、 tex2html_wrap_inline643 の単位時間あたりの計算量を必要とするため、長時間にわたって連続的に動作しているネットワークに対しては実用的でない。
RTRL法は tex2html_wrap_inline645 の学習用の変数と、 tex2html_wrap_inline647 の単位時間あたりの計算量を必要とする。したがって、常に順時間方向に計算できるという利点はあるものの、大規模な全結合のネットワークに対しては効率が悪い。
このような計算量の膨大化を防ぐため、ネットワークの結合構造の制限と、勾配 の近似計算という2つの方面から対策が検討されている。BPTT法では、誤差の逆 伝播を h 段で打ち切るというtruncated BPTT法によって、メモリは O(nh) 、計算量は tex2html_wrap_inline653 に抑えることができる。しかし、RTRL法が厳密な最急降下法(ただし一般にはリヤプノフ関数ではないが)であるのに対し、truncated BPTT法はあくまで最急降下法の近似計算であり、場合によってはこのことが、ネットワークがローカルミニマムにとらえられる原因になることもある。
このように、それぞれの学習則は長所・短所を持つため、それを考慮し、適切な学習則を選択しなければならない。



Hitoshi Kobayashi
Wed Jul 26 04:25:55 JST 2000