コロラド大学などの研究チームが開発した「VisionClaw」は、Ray-Ban MetaとGoogle Gemini、OpenClawを組み合わせたAIシステム。常時周囲を認識しながらデジタルタスクを自動実行でき、タスク完了が13~37%高速化し、ユーザーの負担が低下することが明らかになった。
VisionClawについて
コロラド大学、光州科学技術院、Googleの研究チームは、継続的な一人称視点の認識とデジタルタスクの自動実行を組み合わせたAIエージェント「VisionClaw」を発表した。
この研究では、常にオンの状態で動作するAIが日常生活に適応できるかどうか、また認識と行動が単一システム内で統合されたときに現実のインタラクションがどう変わるかを調査することを目的とした。
研究チームはデジタルと現実の生活のギャップを埋めることを目指した。AIエージェントはソフトウェアを実行し、ウェブ上でタスクを処理できるが、物理世界への窓がない。一方、スマートグラスはカメラとマイクで周囲を捉えるが、独自に行動を起こすことはほぼできない。
VisionClawの仕組み
VisionClawはディスプレイなしのRay-Ban Metaをカスタムスマートフォンアプリを通じてGemini LiveおよびOpenClawに接続する。スマートグラスは継続的に音声とユーザーの周囲の個別フレームをGeminiにストリーミングし、同システムはマルチモーダル入力を処理して、音声で直接返答するか、OpenClawを通じてタスクを起動する。エージェントはブラウザ、メール、カレンダー、ウェブ検索などのツールを活用し、結果を言語モデルに返す。このセットアップにより、継続的な一人称認識とデジタルタスクのエージェント実行が結合される。
研究者らは2つの研究を実施し、VisionClawが実際にどの程度機能するか、また人々がこのようなシステムをどのように使用するかを調査した。
最初の研究では、12人の参加者を対象にVisionClawと2つの簡略版システムを比較した。1つは環境を認識できるがエージェント機能がないRay-Ban Meta上の常時オンAI、もう1つは周囲の継続的な認識がないがエージェントタスクを処理するスマートフォン版OpenClawである。参加者は書類からのメモ作成、メール作成、製品調査、デバイス制御など、実際のオブジェクトや物理的な書類に関する4つのタスクに取り組んだ。
少ない負担でより速い結果
論文によると、VisionClawはタスク内容に応じて13~37%高速にタスクを完了し、ユーザーはそれを7~46%負担が少ないと評価した。精神的負担、時間的プレッシャー、フラストレーションはすべて低下した。成功率は全体的に統計的に同等であったが、VisionClawはメモ作成タスクで58%程度に低下した。これはスマートグラスのカメラが
