Apple研究LLM

ParaRNN：非線形RNNの大規模並列学習を実現する新フレームワーク

速報2026.04.25 03:31

Appleの研究チームが、従来は逐次処理が必要だった再帰型ニューラルネットワーク（RNN）の学習を並列化する新フレームワーク「ParaRNN」を開発。ICLR 2026でオーラル採択された本論文は、従来比665倍の高速化を実現しながら、大規模言語モデルで競争力あるパフォーマンスを達成している。

再帰型ニューラルネットワーク（RNN）は、アテンション機構（attention）ベースのアーキテクチャと比較して、推論（inference）時に圧倒的に少ないメモリと計算量で動作するため、効率的な推論に自然と適している。しかし、その計算の逐次的な性質により、従来は学習時の並列化が困難だった。

Appleの研究者は「ParaRNN：大規模言語モデルのための非線形RNNの並列学習を解き放つ」と題した新しい論文で、ICLR 2026でオーラル発表として採択されている。この論文では、RNN学習を並列化する新しいフレームワークを提示し、従来の逐次的アプローチに対して665倍のスピードアップを達成している。

効率的なシーケンスモデリングの研究を加速し、研究者たちが大規模なRNNモデルを訓練できるようにするため、並列RNN学習からのスピードアップを実現している。適応型ParaGRUおよびParaLSTMセルの並列および逐次適用の実行時比較では、入力シーケンス長の関数として、並列RNNトレーニングが従来の逐次適用に対して劇的なスピードアップを達成することが示されている。

大規模な古典的RNNのパフォーマンスでは、1B、2.9B、7Bの様々なモデルサイズについて、Mamba2、ParaLSTM、ParaGRU、およびトランスフォーマーのパープレキシティ（値が低いほど良い）を比較している。並列化により実現した大規模トレーニングにより、適応型GRUおよびLSTMモデルは、トランスフォーマーおよびMamba2と競争力あるパープレキシティを示す。

トランスフォーマーのアテンション機構の計算コストはシーケンス長に対して二次関数的に増加する。一方、RNNを通した単一の順伝播に必要な計算量は、先行する文脈がどの程度あるかに関わらず同じである。これにより推論（inference）時にトークン生成を定時間で実行でき、効率的なデプロイメントに特に魅力的である。

しかし注意すべき点がある。この効率性の利点は推論時にのみ適用される。トランスフォーマーと異なり、RNNの学習はシーケンス長に沿って並列化することができない。

RNNとアテンション機構の基本的なトレードオフは、RNNはコンパクトな隠れ状態を保持する一方で、トランスフォーマーは異なる特性を持つ。

現代の再帰型アーキテクチャは、シーケンス並列化を可能にするための巧妙な回避策として、隠れ状態の線形性に基づいた漸化式を採用している。Mambaなどの選択的状態空間モデル（SSM）は以下の形式の漸化式を使用する：

SSM：h_l = A_l h_{l-1} + B_l x_l

一方、古典的なRNNは非線形性を含む：

RNN：h_l = σ_l(h_{l-1}, x_l)

線形性は並列化を可能にする。

PR / 広告

すべてのWebサイトに AIアシスタントをつけよう。