GoogleがオープンソースのAIモデル「Gemma 4」をリリース。テキスト、画像、音声をデバイス内で完全に処理でき、クラウド通信なしにWikipediaやマップなどのツールを利用できるエージェント機能を備えています。
Googleが新たにリリースしたオープンソースモデル「Gemma 4」は、テキスト、画像、音声をデバイス内で完全に処理します。エージェントスキルを活用することで、AIは独立してWikipediaやインタラクティブマップなどのツールにアクセスでき、クラウドは不要です。
このモデルを実行するために必要なGoogle AI Edge GalleryアプリはAndroidとiOSで無料提供されています。Gemma 4のリリース以来、このアプリはiOS App Storeの最もダウンロードされた無料生産性アプリで4位にランクインし、Claude、Gemini、ChatGPTの直後に位置しています。
Gemma 4はGoogleの独自モデルであるGemini 3と同じ研究に基づいて構築されていますが、商業利用に適したApache 2.0ライセンスで提供されています。Googleによると、初代のリリース以来、Gemmaファミリーは4億回以上ダウンロードされています。すべてのモデルは140以上の言語でテキスト、画像、音声を処理します。
スマートフォンからサーバーまで、4つのモデルサイズがラインアップされています。
E2BとE4Bはスマートフォン専用に設計されています。「E」は「有効パラメータ数(effective parameters)」を意味し、推論(inference)中に実際にアクティブなパラメータの数を指します。量子化されたE2Bはデバイス上で約1.3GB、E4Bは約2.5GBの容量が必要です。
より大型の26Bおよび31Bバージョンはサーバーと高性能ハードウェアを対象としています。26Bバージョンは128個のエキスパートを備えた混合エキスパート(mixture-of-experts)アーキテクチャを採用しており、任意の時点で約38億個のパラメータのみがアクティブです。密集型の31Bモデルは最大256,000トークンのコンテキストウィンドウを提供します。
GoogleはまたArmとQualcommと協力して、現在のモバイルチップ向けにスマートフォン版を最適化しています。Googleによると、AndroidのGemma 4は前世代比で最大4倍高速に動作し、バッテリー消費を最大60%削減しています。Armの独自ベンチマークではさらに大きな成果が示されており、処理速度で平均5.5倍の高速化が見られました。これはSME2命令セット(AI モデル用の行列演算をシリコンで直接加速する拡張機能)を備えた新型Armチップを搭載したデバイスの場合です。
このアプリはAndroid 12またはiOS 17が必要です。スマートフォンサイズの2つのバリアントはRAM要件が異なります。E2Bは量子化時に約1.3GB使用し、6GBのRAMを備えたデバイスで動作しますが、E4Bは約2.5GBのモデルメモリが必要で、最低8GBのRAMが必要です。
基本的なチャット、画像認識、音声文字起こしを超えて、このアプリはGoogleが「エージェントスキル」と呼ぶ機能を搭載しています。Wikipedia検索、インタラクティブマップ、自動生成されたサマリー、フラッシュカードが含まれます。Gemma 4は写真の説明もでき、音声入力をJSON形式に変換することもできます。
