GoogleがGemini Omniを発表。テキスト・画像・音声・動画を組み合わせて高品質な動画を生成できる新ツールで、自分のデジタルアバターを作るクローン機能や物理モデルを搭載。Gemini Flash、Google Flow、YouTube Shortsへの展開が予定されている。
ZDNETの要点
・Google Omniは、画像生成においてNano Bananaが果たした役割を、動画分野で担うことを目指している。 ・クリエイターはテキスト、画像、音声、動画から動画を制作できる。 ・AIアバターはクリエイターを支援できる一方、信頼性への懸念も生む。
先週、Googleは新しいAI動画生成機能を発表した。クリエイティブ分野を大きく後押しするか、あるいは別の問題を引き起こすかのどちらかとなりそうだ。
Googleが発表したGemini Omniは、AIによる動画生成能力をまったく新しい次元に引き上げるツールだ。同社はこの発表を、画像生成における大きな転換点に匹敵するものと位置づけている。Omniのロールアウトはすでに始まっているが、筆者はまだ試す機会を得ていない。
GoogleはOmniを「Geminiの推論(reasoning)能力と生成能力が融合した場所」と表現している。また、「Omniを使えば、画像・音声・動画・テキストを入力として組み合わせ、Geminiの現実世界の知識に基づいた高品質な動画を生成できる」と説明している。
Omniは「動画から始まる」としながらも、「あらゆる入力からあらゆるものを生成できる」新モデルだとGoogleは述べている。
Omniはモデルの段階的な展開が行われており、まずGemini Omni Flashとして提供が開始されている。Geminiアプリ、Google Flow、YouTube Shortsへの対応も予定されている。GeminiのWeb版でOmniが利用できるかどうか、あるいはブラウザからFlowインターフェースを使う必要があるかどうかは現時点では明確になっていない。
今回の発表を特に興味深いものにするいくつかの注目機能がある。
自分を複製する
これが際立った機能になるのか、深刻な懸念事項になるのか、あるいはその両方なのか、筆者には判断がつかない。
YouTubeチャンネルを運営する筆者は、スクリプトをデジタルツイン(digital twin)アバターに与え、自分の分身に代わりに話させることができるのだろうか。視聴者は気づくだろうか。気にするだろうか。嫌がるだろうか。筆者自身はどう感じるだろうか。明らかに実験に値する領域だが、多くの問題をはらんでいる。
Googleは、SynthIDデジタルフィンガープリントを組み込んでいることを明言している。
物理モデル
ビデオゲームの黎明期を覚えている人もいるだろう。当時のキャラクターは、現実の物理法則に則った動きではなく、まるでラグドール(ragdoll)人形のような不自然な挙動をしていた。ゲームが進化するにつれて物理モデルが導入され、何かが撃たれたり、弾き飛ばされたり、落下したりする際に、その物体の特性に合った動きをするようになった。
Omniはこの物理モデルをAI動画生成に組み込み、よりリアルな映像表現を可能にしている。
