Google傘下の研究チームがRay-Ban Meta搭載のAIエージェント「VisionClaw」を開発。リアルタイム映像認識とデジタルタスク自動実行を統合したシステムで、ユーザーの視点から環境を常時認識しながら業務を実行。実験では従来システムと比べタスク完了時間を13~37%短縮し、ユーザーの負担も大幅に軽減された。
VisionClawについて
コロラド大学、光州科学技術院、Googleの研究チームは、継続的なファーストパーソン知覚とデジタルタスクの自律実行を組み合わせた常時稼働型AIエージェント「VisionClaw」を発表しました。
研究チームがVisionClawを開発した背景には、常時稼働型のAIが実生活でどこまで機能するか、また知覚と行動が単一システム内で統合された場合にどのように人間とAIの相互作用が変わるかを検証したいという目的がありました。
チームは、デジタルとリアルライフのギャップを埋めることを目指しました。AIエージェントはウェブ上でソフトウェアを実行しタスクを処理できますが、物理世界の状況を知覚する手段がありません。一方、スマートグラスはカメラとマイクで周囲を捉えられるものの、自律的に行動する能力がほとんどありません。
VisionClawの仕組み
VisionClawはディスプレイなしのRay-Ban MetaをGemini LiveとOpenClawに接続し、カスタムスマートフォンアプリを通じて運用されます。眼鏡は継続的にユーザーの周囲の音声と映像フレームをGeminiにストリーミング送信し、Geminiがマルチモーダル入力を処理して音声で直接応答するか、OpenClawを通じてタスクを実行します。エージェントはブラウザ、メール、カレンダー、ウェブ検索などのツールを活用し、結果を言語モデルに返します。このシステムにより、継続的なファーストパーソン知覚がデジタルタスク実行のエージェント機能と結びつきます。
研究チームは、VisionClawが実際にどの程度機能し、ユーザーがこのようなシステムをどのように使用するかを検証するため、2つの研究を実施しました。
最初の研究では、12人の参加者を対象にVisionClawと2つの簡略版システムを比較しました。一つは環境を認識できるものの一般的なエージェント実行機能がないRay-Ban Meta上の常時稼働型AI、もう一つはエージェントタスクを処理できるがリアルタイムの周囲認識機能がないスマートフォン版OpenClawです。参加者は、書類からのメモ取り、メール作成、製品調査、デバイス制御など、実際のオブジェクトや物理文書を扱う4つのタスクに取り組みました。
より少ない労力でより速い結果
論文によると、VisionClawはタスク種別に応じて13~37%高速にタスクを完了し、ユーザーの評価では7~46%負担が少ないと判断されました。精神的負荷、時間的プレッシャー、フラストレーションがすべて減少しました。全体的には成功率は統計的に類似していましたが、眼鏡のカメラが対応できないため、メモ取りタスクではVisionClawの成功率が約58%に低下しました。
