速 報2026.04.11 07:40
Appleの研究チームは、人間の選好フィードバックから報酬関数を学習する強化学習アルゴリズムの実用性を高める手法を提案。NeurIPS 2022の「Human-in-the-Loop Learning Workshop」に採択された論文で、必要なラベル数を削減する環境エンコーディングの活用を実証した。
本論文は、NeurIPS 2022の「Human-in-the-Loop Learning Workshop」で採択されました。
選好ベースの強化学習(RL)アルゴリズムは、手作りの報酬関数による落とし穴を回避し、人間の選好フィードバックから報酬関数を抽出することで学習を行います。しかし、比較的単純なタスクであっても、人間からのラベル付けの負担が大きいため、実用化が難しい状況が続いていました。本研究では、環境のエンコーディングを活用することで、この課題に対処できることを実証します。
