産業技術総合研究所は、サイバー世界とフィジカル世界の相互作用を可能にするフィジカルAIの基盤モデル開発に取り組んでいる。2024~2026年度の3年間のプロジェクトを通じて、日本の製造業を中心に業務改革と国際競争力の向上を目指している。
産業技術総合研究所(産総研)は2026年3月23日、「フィジカル領域の生成AI基盤モデルに関する研究開発」プロジェクトについて解説するウェビナーを開催した。日本の主力産業である製造業を中心に注目を集めるフィジカルAIがテーマになっていることもあり、参加者は400人を超えたという。
■フィジカルAIはサイバー世界とも相互作用する
プロジェクトの概要と狙いを説明した産総研人工知能研究センター首席研究員の佐藤雄隆氏によると、2024~2026年度の3年間で計画されている同プロジェクトは、フィジカルAIの基盤モデルを活用したシステムとアプリケーションを広く浸透させるとともに、日本のさまざまな産業の業務改善と業務改革を促して国際競争力の維持・向上に寄与することを目指している。また、透明性を持つ基盤モデルの構築と実世界への応用も志向しているという。なお、フィジカルAIへの注目が集まったのは2025年後半からだが、プロジェクトが立案されたのは2023年度である。
同プロジェクトにおけるフィジカルAIの定義は、従来のAIがサイバー世界で入出力が完結していたのに対し、フィジカル世界に必要に応じて直接の観測や作用が可能で、サイバー世界とも相互作用するものとされている。すなわち、従来のAIの領域を包含しつつ、現実世界を観測・作用するものとして捉えられている。
研究体制は画像、音声・音響、言語、ロボット、基盤技術、バイオの6つのグループから成り、モダリティと応用領域によって分けられた。これらのうちバイオは横断的応用領域として、ロボットは観測・理解・行動を結び付ける存在として捉えられている。
これまでの研究開発成果として、「Llama 3.1 Swallow」や6万時間の日本語音声データを使った日本語音声基盤モデル「いざなみ」「くしなだ」、双腕ロボットAIの開発を支援するデータセット「AIST-Bimanual Manipulation」をはじめ約7件のプレスリリースが出されている。
■ロボット基盤モデル構築に向けた取り組み
ロボットの基盤モデル構築に向けた研究成果を紹介したのは、産総研人工知能研究センター実体知能研究チーム研究チーム長の堂前幸康氏である。堂前氏は三菱電機でマシンビジョンやロボットマニピュレーションの研究に取り組んだ後、2018年から産総研でロボティクス分野について研究している。
堂前氏は約10年前に開催された物流向けピッキングロボットのコンテスト「Amazon Picking Challenge 2015」を振り返り、当時と同じ問題に今取り組むと、VLM(視覚言語モデル)に身体を制御する知識が内包されていることが分かると同時に、課題も残されていることを紹介した。
現在、多くのスタートアップや研究機関がさまざまな基盤モデルの開発を続けている。堂前氏が印象的な例として挙げたのは、DeepMindの研究者が立ち上げたスタートアップのGeneralistによるデータドリブンベースのデモである。製造現場に携わってきた堂前氏の目から見ても、かなり印象的なレベルに達していると感じるという。
基盤モデルの応用も進められている。マニピュレーションだけでなく、ナビゲーションでもSim-to-Real(仮想環境で学習したAIモデルを現実世界に適用させるアプローチ)がうまくできるようになっている。模倣学習手法の一つであるMT-ACT(Multi-task Action Chunking Transformer)を使ってロボットのマニピュレーションを実施すると、約6時間の収集データで言語指示で動くシステムを構築できたという。速度は遅いものの、各モーダルが滑らかに接続されており、大きな可能性を感じさせると堂前氏はコメントした。
