速 報2026.04.17 04:31
大規模言語モデルの学習効率と汎化性能の向上を目指し、グループ微調整(GFT)という統一的な枠組みが提案された。教師付き微調整(SFT)をポリシー勾配最適化の特殊ケースとして解析し、報酬スパース性と勾配不安定性を克服する手法を開発した。
大規模言語モデルは通常、教師付き微調整(SFT)と強化学習(RL)を用いて事後学習されるが、効率的な知識注入と堅牢な汎化性能の統一は依然として困難である。
本研究では、訓練動態分析を通じてSFTがポリシー勾配最適化(policy gradient optimization)の極めてスパースな暗黙報酬と不安定な逆確率重み付けを備えた特殊ケースであることを示している。これらが単一経路依存性、エントロピー崩壊、勾配爆発につながることが明らかになった。
この診断に基づき、グループ微調整(GFT)という統一的な事後学習フレームワークが提案された。このフレームワークは2つのメカニズムを通じて固有の制限を解決する。1つ目は「グループ優位性学習(Group Advantage Learning)」で、多様な応答グループを構築し、正規化対比教師(normalized contrastive supervision)を導出して報酬スパース性を緩和する。2つ目は「動的係数補正(Dynamic Coefficient Rectification)」で、逆確率重みを適応的に制限し、最適化を安定化させる。
