Google Deepmindが、ロボット向けの具現化推論(embodied reasoning)モデル「Gemini Robotics-ER 1.6」をリリースしました。物体認識、計数、タスク実行の判定において先代モデルを上回る性能を示し、Boston Dynamicsと協力して開発された計測機器の読み取り機能も大幅に改善されています。
Google Deepmindは、ロボット向けの具現化推論(embodied reasoning)モデル「Gemini Robotics-ER 1.6」のアップグレード版をリリースしました。このモデルはロボットの高度な思考層として機能し、周囲の環境を理解し、必要に応じてGoogle Searchやビジョンランゲージアクションモデルなどのツールを活用しながら、タスクを自律的に計画するのに役立ちます。Deepmindによると、新バージョンは物体の指差し、計数、タスク実行の成功判定において、Gemini Robotics-ER 1.5とGemini 3.0 Flashの両モデルを上回る性能を示しています。
Boston Dynamicsとの協力で開発された、圧力計や窓ガラス式液位計などの計測機器を読み取る機能も大幅に向上しました。このモデルは、エージェント的な画像処理とコード実行を組み合わせています。細かい表示部分を捉えるためにズームイン機能を使用し、指差し関数とコードを使用して比率と距離を計算し、その後、世界知識を適用して読み取り値を解釈します。Boston Dynamicsのロボット「Spot」は、システム検査にこの機能を使用しているとのことです。
このモデルはGemini APIとGoogle AI Studioを通じて利用可能であり、開発者向けのColabの例も提供されています。
