速 報2026.04.18 01:31
Google Deepmindは、ロボット向けの高度な推論機能を持つGemini Robotics-ER 1.6をリリースした。物体の指摘、数え上げ、タスク実行の認識において前バージョンを上回り、計器の読み取り能力も大幅に向上している。
Google Deepmindは、ロボットの実装推論(embodied reasoning)のための改良型モデル「Gemini Robotics-ER 1.6」をリリースした。このモデルは、ロボットが周囲の状況を理解し、必要に応じてGoogle検索やビジョン言語行動モデルなどのツールを活用しながら、自力でタスクを計画するための高度な思考層として機能する。
DeepMindによると、新バージョンは物体の指摘、数え上げ、タスク実行の成功認識において、Gemini Robotics-ER 1.5とGemini 3.0 Flashの両方を上回る性能を発揮している。
圧力計や覗き窓などの計器の読み取り機能も大幅に改善された。この機能はBoston Dynamicsと協力して開発されたもので、エージェント的な画像処理とコード実行を組み合わせている。小さな表示部分を捉えるためにズームイン、指摘関数とコードを使用して比率と距離を計算し、その後、世界知識を適用して読み取り値を解釈する。Boston Dynamicsのロボット「Spot」は、システム検査にこの機能を使用していると報告されている。
このモデルはGemini APIとGoogle AI Studioを通じて利用可能であり、開発者向けのColabの例も提供されている。
