Googleがテキスト、画像、音声を完全にデバイス内で処理する新型オープンソースモデル「Gemma 4」をリリース。エージェントスキルにより、クラウドを使わずWikipediaやマップなどのツールを独立して活用できます。Google AI Edge Galleryアプリは無料で利用でき、iOSの生産性アプリダウンロードランキングで4位になっています。
Googleの新型オープンソースモデル「Gemma 4」は、テキスト、画像、音声を完全にデバイス内で処理します。エージェントスキルを使用することで、AIはクラウドを必要とせず、Wikipediaやインタラクティブマップなどのツールに独立してアクセスできます。
このモデルを実行するために必要なGoogle AI Edge GalleryアプリはアンドロイドとiOSで無料で利用できます。Gemma 4のリリース以来、このアプリはiOSアプリストアの最もダウンロードされている無料生産性アプリで4位にランクインしており、Claude、Gemini、ChatGPTの直後に位置しています。
Gemma 4はGoogleの独自技術「Gemini 3」モデルと同じ研究に基づいて構築されていますが、商用に優しいApache 2.0ライセンスで公開されています。Googleによると、Gemmaファミリーは初代以来4億ダウンロードを記録しています。すべてのモデルは140以上の言語でテキスト、画像、音声を処理できます。
最新リリースは4つのバリエーションで提供されます。E2BとE4Bはスマートフォン専用に構築されています。「E」は「有効パラメータ」を意味し、推論(inference)中に実際にアクティブなパラメータの数を指します。量子化されたE2Bはデバイス内に約1.3GB必要であり、E4Bは約2.5GBが必要です。
より大規模な26Bおよび31Bバリアントはサーバーと高性能ハードウェアを対象としています。26Bバージョンは128の専門家を持つ混合専門家アーキテクチャ(mixture-of-experts architecture)を使用しており、任意の時点でアクティブなパラメータは38億個だけです。密集型の31Bモデルは最大256,000トークンのコンテキストウィンドウを提供します。
GoogleはArmとQualcommとも提携し、現在のモバイルチップ向けにスマートフォンバリアントを最適化しました。Googleによると、AndroidのGemma 4は前世代より最大4倍高速に実行され、バッテリー消費を最大60%削減しています。Armの独自ベンチマークではさらに大きな成果を示しており、SME2命令セット(行列計算を直接シリコンで高速化するAI拡張機能)を搭載した新型Armチップを備えたデバイスでは、平均5.5倍の処理高速化を実現しています。
このアプリにはAndroid 12またはiOS 17が必要です。スマートフォン向けの2つのバリアントはRAM要件が異なります。E2Bは量子化された状態で約1.3GBのモデルメモリを使用し、6GBのRAMを備えたデバイスで実行でき、E4Bは約2.5GBのモデルメモリが必要で、最低8GBのRAMが必要です。
基本的なチャット、画像認識、音声文字起こしに加えて、このアプリはGoogleが「エージェントスキル」と呼ぶ機能を搭載しています。Wikipedia検索、インタラクティブマップ、自動生成されたサマリー、フラッシュカードが含まれます。Gemma 4はまた、写真を説明したり、音声入力をJSON形式に変換することもできます。
