LLM研究生成AI

GFT：模倣学習から報酬微調整への統一的アプローチ

速報2026.04.17 04:31

大規模言語モデルの学習効率と汎化性能の向上を目指し、グループ微調整（GFT）という統一的な枠組みが提案された。教師付き微調整（SFT）をポリシー勾配最適化の特殊ケースとして解析し、報酬スパース性と勾配不安定性を克服する手法を開発した。

大規模言語モデルは通常、教師付き微調整（SFT）と強化学習（RL）を用いて事後学習されるが、効率的な知識注入と堅牢な汎化性能の統一は依然として困難である。

本研究では、訓練動態分析を通じてSFTがポリシー勾配最適化（policy gradient optimization）の極めてスパースな暗黙報酬と不安定な逆確率重み付けを備えた特殊ケースであることを示している。これらが単一経路依存性、エントロピー崩壊、勾配爆発につながることが明らかになった。

PR / 広告

すべてのWebサイトに AIアシスタントをつけよう。

✦YouTubeの要約やウェブサイトの分析など、使い方は無限大
✦最新AIモデルを1つに統合しコストを削減
✦500万人以上が利用する信頼のブランド

無料で始める

クーポンコードMERLIN20で20%オフ

この診断に基づき、グループ微調整（GFT）という統一的な事後学習フレームワークが提案された。このフレームワークは2つのメカニズムを通じて固有の制限を解決する。1つ目は「グループ優位性学習（Group Advantage Learning）」で、多様な応答グループを構築し、正規化対比教師（normalized contrastive supervision）を導出して報酬スパース性を緩和する。2つ目は「動的係数補正（Dynamic Coefficient Rectification）」で、逆確率重みを適応的に制限し、最適化を安定化させる。

OpenAI生成AI研究

GFT：模倣学習から報酬微調整への統一的アプローチ

関連記事

OpenAI、生命科学研究向けAI「GPT-Rosalind」を発表 創薬研究を高速化

Anthropic、「Claude Opus 4.7」のレート制限バグを修正 使用制限をリセット

ソフトバンク、米Brain Technologies製「Natural AI Phone」を国内独占販売開始

OpenAI、生命科学研究向けAI「GPT-Rosalind」を発表創薬研究を高速化

Anthropic、「Claude Opus 4.7」のレート制限バグを修正　使用制限をリセット