Googleが新しいオープンソースモデル「Gemma 4」をリリース。テキスト、画像、音声をすべてスマートフォン上で処理でき、クラウドを一切使用しない。エージェント機能によりWikipediaやインタラクティブマップなどのツールを独立して操作可能。
Googleの新しいオープンソースモデルGemma 4は、テキスト、画像、音声を完全にオンデバイスで処理します。エージェントスキルを使用することで、AIはWikipediaやインタラクティブマップなどのツールに独立してアクセスでき、クラウドは不要です。
このモデルを実行するために必要なGoogle AI Edge Galleryアプリは、AndroidとiOS上で無料で利用できます。Gemma 4のリリース以来、このアプリはiOS App Storeの最も無料でダウンロードされた生産性アプリの中で4位にランクされており、Claude、Gemini、ChatGPTの直後に位置しています。
Gemma 4はGoogleの独自のGemini 3モデルと同じ研究に基づいて構築されていますが、商用に優しいApache 2.0ライセンスの下で提供されています。Googleによると、Gemmaファミリーは初代のリリース以来400万回以上のダウンロードを記録しています。すべてのモデルは140以上の言語でテキスト、画像、音声を処理します。
4つのモデルサイズがスマートフォンからサーバーまであらゆるものに対応しています。
最新リリースは4つのバリアントで提供されています。E2BとE4Bはスマートフォン専用に構築されています。「E」は「有効パラメータ」を表し、推論(inference)中に実際にアクティブなパラメータの数を意味します。量子化(quantize)されたE2Bはオンデバイスで約1.3GBを占め、E4Bは約2.5GB必要です。
より大規模な26Bと31Bバリアントはサーバーと高性能ハードウェアをターゲットとしています。26Bバージョンは128個のエキスパートを備えた混合エキスパート(mixture-of-experts)アーキテクチャを使用し、任意の時点で38億個のパラメータのみがアクティブです。密集型の31Bモデルは最大256,000トークンのコンテキストウィンドウを提供します。
Googleはまた、ArmおよびQualcommと協力して、現在のモバイルチップ用にスマートフォンバリアントを最適化しました。Googleによると、AndroidのGemma 4は前世代よりも最大4倍高速に実行され、バッテリー消費を最大60%削減します。Armの独自ベンチマークはさらに大きな改善を示しており、SME2命令セット(AIモデルの行列演算をシリコンで直接加速させる拡張機能)を備えた新しいArmチップを搭載したデバイスの場合、平均5.5倍の処理速度向上です。
エージェントスキルがオンデバイスAIにツール使用をもたらします。
アプリはAndroid 12またはiOS 17が必要です。2つのスマートフォンサイズのバリアントはRAM要件が異なります。E2Bは量子化で約1.3GBを使用し6GBのRAMを搭載したデバイスで実行でき、E4Bはモデルメモリ約2.5GBと最低8GBのRAMを必要とします。
基本的なチャット、画像認識、音声文字起こしを超えて、このアプリはGoogleが「エージェントスキル」と呼ぶ機能が搭載されています。Wikipedia検索、インタラクティブマップ、自動生成サマリー、フラッシュカードなどです。Gemma 4は写真を説明したり、音声入力をJSON形式に変換することもできます。
