速 報2026.04.17 22:31
Google DeepmindがロボットAI向けモデル「Gemini Robotics-ER 1.6」をリリースした。物体認識や計画立案の精度が向上し、計測機器の読み取りなどの新機能も追加された。Gemini APIとGoogle AI Studioで利用可能である。
Google DeepmindはロボットAI向けの強化モデル「Gemini Robotics-ER 1.6」をリリースした。本モデルは具体化された推論(embodied reasoning)向けの高度な思考レイヤーとして機能し、ロボットが周囲を理解し、必要に応じてGoogleサーチや視覚言語行動モデルなどのツールを活用しながら、タスク計画を自律的に立案するのに役立つ。
DeepMindによれば、新バージョンはGemini Robotics-ER 1.5およびGemini 3.0 Flashの両方を上回る性能を、物体の指差し、物体の数え上げ、タスク実行成功の認識において実現している。
Boston Dynamicsとの共同開発により、圧力計や液面計などの計測機器の読み取り機能も大幅に改善された。本モデルはエージェント型画像処理とコード実行を組み合わせる。具体的には表示部の細部を捉えるため画像をズームイン、指差し関数やコードを用いて比率やスケール距離を計算、そして世界知識を適用して読み値を解釈する。Boston Dynamicsのロボット「Spot」がシステム検査用にこの機能を使用しているという報告がある。
本モデルはGemini APIおよびGoogle AI Studioから利用でき、開発者向けのColab例も提供されている。
