Googleが公開した新モデル「Gemma 4」は、テキスト・画像・音声をスマートフォンで完全にオンデバイス処理できます。エージェント機能により、クラウドを使わずにWikipediaやマップなどのツールにアクセス可能で、iOS・Androidの無料アプリで利用できます。
Googleの新しいオープンソースモデル「Gemma 4」は、テキスト、画像、音声をすべてデバイス内で処理します。エージェントスキルを使用することで、AIは独立してWikipediaやインタラクティブマップなどのツールにアクセスでき、クラウドは不要です。
このモデルを実行するために必要なGoogle AI Edge Galleryアプリは、AndroidとiOS上で無料で提供されています。Gemma 4のリリース以来、このアプリはiOS App Storeの最も多くダウンロードされた無料生産性アプリの第4位にまで上昇し、Claude、Gemini、ChatGPTのすぐ後ろに位置しています。
Gemma 4はGoogleの独自モデルであるGemini 3と同じ研究に基づいており、商用利用に適したApache 2.0ライセンスの下で公開されています。Googleによると、最初の世代の上市以来、Gemmaファミリーは4億回以上のダウンロードを記録しています。すべてのモデルは140以上の言語でテキスト、画像、音声を処理します。
最新リリースは4つのバリアントで提供されます。E2BとE4Bはスマートフォン向けに設計されています。「E」は「有効パラメータ(effective parameters)」を表し、推論(inference)中に実際にアクティブなパラメータの数を意味します。量子化されたE2Bはデバイス上で約1.3GBを占有し、E4Bは約2.5GBが必要です。
より大型の26Bおよび31Bバリアントはサーバーと高性能ハードウェアをターゲットとしています。26Bバージョンは128の専門家を持つ混合専門家アーキテクチャ(mixture-of-experts architecture)を使用しており、任意の時点で約38億のパラメータのみがアクティブです。密度の高い31Bモデルは最大256,000トークンのコンテキストウィンドウを提供します。
Googleはまた、ArmおよびQualcommと協力して、現在のモバイルチップ向けに電話バリアントを最適化しました。Googleによると、AndroidのGemma 4は前世代よりも最大4倍高速に動作し、バッテリー消費を最大60%削減します。Armの独自ベンチマークではさらに大きな成果が示されています。SME2命令セット(行列演算を加速するため、シリコン内でAIモデル向けに設計された拡張機能)を備えた新しいArmチップを搭載したデバイスの場合、平均5.5倍の処理速度向上が見られます。
アプリはAndroid 12またはiOS 17が必要です。電話サイズのバリアントはRAM要件が異なります。E2Bは量子化された状態で約1.3GBを使用し、6GBのRAMを搭載したデバイスで動作しますが、E4Bは約2.5GBのモデルメモリが必要で、最低8GBのRAMが必要です。
基本的なチャット、画像認識、音声トランスクリプション機能以上に、アプリには「エージェントスキル」と呼ばれるものが搭載されています。Wikipedia検索、インタラクティブマップ、自動生成のサマリー、フラッシュカードなどです。Gemma 4は写真の説明、音声入力の処理も可能です。
