Googleが新しいオープンソースモデル「Gemma 4」をリリース。テキスト、画像、音声をすべてデバイス内で処理でき、インターネット接続なしでWikipediaや地図などのツールを利用できるエージェント機能を搭載。複数のサイズが用意され、スマートフォンからサーバーまで対応している。
GoogleのオープンソースモデルであるGemma 4は、テキスト、画像、音声をすべてデバイス内で処理します。エージェントスキルを使用することで、AIは独立してWikipediaやインタラクティブマップなどのツールにアクセスでき、クラウドは不要です。
モデルを実行するために必要なGoogle AI Edge Galleryアプリは、AndroidとiOSで無料で利用できます。Gemma 4のリリース以降、このアプリはiOS App Storeの最も多くダウンロードされている無料生産性アプリの4位まで上昇し、Claude、Gemini、ChatGPTの直後に位置しています。
Gemma 4はGoogleの専有モデルであるGemini 3と同じ研究に基づいて構築されていますが、商業的に友好的なApache 2.0ライセンスの下で提供されています。Googleによれば、Gemmaファミリーは最初の世代のリリース以来4億回以上のダウンロードを記録しています。すべてのモデルは140以上の言語でテキスト、画像、音声に対応しています。
最新リリースは4つのバリアント(派生版)で提供されます。E2BとE4Bはスマートフォン向けに特別に開発されました。「E」は「有効パラメータ」を表し、推論(inference)中に実際にアクティブなパラメータの数を意味します。量子化されたE2Bはデバイス内でおよそ1.3GBを占め、E4Bはおよそ2.5GB必要です。
より大規模な26Bおよび31Bのバリアントは、サーバーと高性能ハードウェアをターゲットとしています。26Bバージョンはミクスチャー・オブ・エキスパート(mixture-of-experts)アーキテクチャを使用し128個のエキスパートを備えているため、任意の時点では38億個のパラメータのみがアクティブです。密集型の31Bモデルは最大256,000トークンのコンテキストウィンドウを提供します。
Googleはまた、ArmとQualcommと協力して、スマートフォンバリアントを現在のモバイルチップ向けに最適化しました。Googleによれば、AndroidでのGemma 4は前世代と比べて最大4倍高速に動作し、バッテリー消費を最大60%削減します。Armのベンチマークではさらに大きな改善が示されており、SME2命令セット(マトリックス数学をAIモデルに直接シリコンで加速させる拡張機能)を備えたより新しいArmチップを搭載しているデバイスでは、平均5.5倍の処理速度向上を実現しています。
アプリはAndroid 12またはiOS 17が必要です。2つのスマートフォンサイズのバリアントはRAM要件が異なります。E2Bはおよそ1.3GB量子化され、6GBのRAMを持つデバイスで動作しますが、E4Bは約2.5GBのモデルメモリと最低8GBのRAMが必要です。
基本的なチャット、画像認識、音声転記を超えて、このアプリはGoogleが「エージェントスキル」と呼ぶものを備えています。これはWikipedia検索、インタラクティブマップ、自動生成されたサマリー、フラッシュカードを含みます。Gemma 4はまた、写真を説明し、音声入力を処理することもできます。
