Appleの研究チームが、従来は逐次処理が必要だった再帰型ニューラルネットワーク(RNN)の学習を並列化する新フレームワーク「ParaRNN」を開発。ICLR 2026でオーラル採択された本論文は、従来比665倍の高速化を実現しながら、大規模言語モデルで競争力あるパフォーマンスを達成している。
再帰型ニューラルネットワーク(RNN)は、アテンション機構(attention)ベースのアーキテクチャと比較して、推論(inference)時に圧倒的に少ないメモリと計算量で動作するため、効率的な推論に自然と適している。しかし、その計算の逐次的な性質により、従来は学習時の並列化が困難だった。
Appleの研究者は「ParaRNN:大規模言語モデルのための非線形RNNの並列学習を解き放つ」と題した新しい論文で、ICLR 2026でオーラル発表として採択されている。この論文では、RNN学習を並列化する新しいフレームワークを提示し、従来の逐次的アプローチに対して665倍のスピードアップを達成している。
効率的なシーケンスモデリングの研究を加速し、研究者たちが大規模なRNNモデルを訓練できるようにするため、並列RNN学習からのスピードアップを実現している。適応型ParaGRUおよびParaLSTMセルの並列および逐次適用の実行時比較では、入力シーケンス長の関数として、並列RNNトレーニングが従来の逐次適用に対して劇的なスピードアップを達成することが示されている。
大規模な古典的RNNのパフォーマンスでは、1B、2.9B、7Bの様々なモデルサイズについて、Mamba2、ParaLSTM、ParaGRU、およびトランスフォーマーのパープレキシティ(値が低いほど良い)を比較している。並列化により実現した大規模トレーニングにより、適応型GRUおよびLSTMモデルは、トランスフォーマーおよびMamba2と競争力あるパープレキシティを示す。
トランスフォーマーのアテンション機構の計算コストはシーケンス長に対して二次関数的に増加する。一方、RNNを通した単一の順伝播に必要な計算量は、先行する文脈がどの程度あるかに関わらず同じである。これにより推論(inference)時にトークン生成を定時間で実行でき、効率的なデプロイメントに特に魅力的である。
しかし注意すべき点がある。この効率性の利点は推論時にのみ適用される。トランスフォーマーと異なり、RNNの学習はシーケンス長に沿って並列化することができない。
RNNとアテンション機構の基本的なトレードオフは、RNNはコンパクトな隠れ状態を保持する一方で、トランスフォーマーは異なる特性を持つ。
現代の再帰型アーキテクチャは、シーケンス並列化を可能にするための巧妙な回避策として、隠れ状態の線形性に基づいた漸化式を採用している。Mambaなどの選択的状態空間モデル(SSM)は以下の形式の漸化式を使用する:
SSM:h_l = A_l h_{l-1} + B_l x_l
一方、古典的なRNNは非線形性を含む:
RNN:h_l = σ_l(h_{l-1}, x_l)
線形性は並列化を可能にする。
