Google DeepmindはロボットAIモデル「Gemini Robotics-ER 1.6」をリリースしました。前バージョンやGemini 3.0 Flashと比べて物体認識や計数能力が向上し、Boston Dynamicsと共同開発した計測機器の読み取り機能も大幅に改善されています。
Google DeepmindはロボットのEmbodied Reasoning(具体化された推論)向けアップグレードモデル「Gemini Robotics-ER 1.6」をリリースしました。このモデルはロボットの高度な思考層として機能し、周囲の状況を理解し、タスクを自律的に計画するのに役立ちます。必要に応じてGoogle SearchやVision-Language-Action(視覚言語行動)モデルといったツールを活用します。Deepmindによると、新バージョンは物体の指示、計数、タスク完了の認識のいずれにおいても、Gemini Robotics-ER 1.5およびGemini 3.0 Flashを上回る性能を発揮します。
圧力計や覗き窓などの計測機器の読み取り機能はBoston Dynamicsとの共同開発により大幅に向上しました。このモデルはエージェント型の画像処理とコード実行を組み合わせています。小さな表示部分を捉えるためにズームイン、ポインティング機能とコードを使って比率とスケール距離を計算し、その後、世界知識を適用して読み取り値を解釈します。Boston DynamicsのSpotロボットはこの機能をシステム検査に利用しているとのことです。
このモデルはGemini APIとGoogle AI Studioを通じて利用可能であり、開発者向けのColabサンプルも提供されています。
