Williams,Zipserは様々な方式のRNNの学習に必要な計算量とメモリについて詳細
に比較検討を行った。ユニット数を n としたとき、BPTT法はネットワークを
動作させる時間ステップを T とすると、 O(nT) の変数と、 の単位時間あたりの計算量を必要とするため、長時間にわたって連続的に動作しているネットワークに対しては実用的でない。
RTRL法は の学習用の変数と、 の単位時間あたりの計算量を必要とする。したがって、常に順時間方向に計算できるという利点はあるものの、大規模な全結合のネットワークに対しては効率が悪い。
このような計算量の膨大化を防ぐため、ネットワークの結合構造の制限と、勾配
の近似計算という2つの方面から対策が検討されている。BPTT法では、誤差の逆
伝播を h 段で打ち切るというtruncated BPTT法によって、メモリは O(nh)
、計算量は に抑えることができる。しかし、RTRL法が厳密な最急降下法(ただし一般にはリヤプノフ関数ではないが)であるのに対し、truncated BPTT法はあくまで最急降下法の近似計算であり、場合によってはこのことが、ネットワークがローカルミニマムにとらえられる原因になることもある。
このように、それぞれの学習則は長所・短所を持つため、それを考慮し、適切な学習則を選択しなければならない。