Nvidiaが1枚の写真から大規模で一貫性のある3D環境を生成するLyra 2.0を発表。生成された約90メートルスパンのシーンはリアルタイムで探索でき、ロボットシミュレーションに直接利用可能。既存手法の課題を解決し、6つの競合手法を上回る性能を実現。
Nvidiaの研究者らが、1枚の写真から大規模で一貫性のある3D環境を生成するシステム「Lyra 2.0」を発表しました。生成されたシーンはリアルタイムで探索でき、ロボットシミュレーションで直接利用できます。
既存の3Dシーン生成AI(AI)モデルは長いカメラパスで問題を抱えています。仮想カメラが起点から遠ざかるほど、色や構造の歪みが増し、以前見た場所にカメラが戻ると、モデルは環境を一から作り直してしまいます。Nvidiaの研究者らはLyra 2.0でこの問題の解決を目指しています。
このシステムは1枚の写真を入力し、シーンの仮想ウォークスルーをシミュレートするカメラ操作動画を生成します。これらの動画は自動的にリアルタイム表示可能な3D表現に変換され、シミュレーション環境で利用できます。研究論文によると、生成されたシーンは約90メートルにわたって広がります。
**3D シーン生成における2つの最大の課題をLyra 2.0が解決**
研究者らによると、現在のビデオモデルは2つの根本的な課題に失敗しています。第一に、モデルはフレームから外れた瞬間に以前見えていた領域を忘れてしまいます。第二に、段階的なビデオ生成時の小さなエラーが蓄積し、時間経過とともに大きな歪みへと増幅されます。
Lyra 2.0は、生成された各フレームの3D幾何学情報を保存することで第一の問題に対処しています。カメラが以前訪問した領域に戻ると、システムは過去のフレームを取得し、その空間情報を参照として使用します。ビデオモデルは実際の画像生成を担当するため、保存された幾何学情報のエラーは新しいフレームに直接影響しません。
ドリフト(drift)を防ぐため、研究者らは訓練時にモデルを意図的に自らの不完全な出力に曝露させています。これにより、モデルは品質低下を認識し補正する能力を習得し、エラーを伝播させない仕組みになっています。
**Lyra 2.0が6つの競合手法を上回る性能を発揮**
2つのデータセット上のベンチマークテストでは、Lyra 2.0がGEN3C、Yume-1.5、CaMを含む6つの他の手法を、画像品質、スタイル一貫性、カメラ制御など、ほぼすべての測定基準で上回っていることがNvidiaから報告されています。より高速なモデルバリアントは同等の品質で約13倍高速にビデオを生成します。
生成された3D シーンは対話的インターフェース経由でステップバイステップで探索でき、Nvidia Isaac Simなどのフィジクスエンジン(physics engine)にメッシュとしてエクスポート可能です。これによりロボットが実際の環境撮影なしに完全に生成された環境で訓練できるようになります。
