Googleが2026年4月15日にリリースした音声合成AI「Gemini 3.1 Flash TTS」は、日本語を含む70以上の言語に対応。感情タグで音声表現を制御でき、業界最高クラスの品質と低コストを実現している。
Googleが合成音声AI「Gemini 3.1 Flash TTS」を2026年4月15日にリリースしました。Gemini 3.1 Flash TTSは日本語を70以上の言語に対応しており、感情を制御しつつ高品質な音声を出力することができます。無料で使えるデモアプリも用意されています。
Gemini 3.1 Flash TTSはテキストを入力して音声を出力できる音声合成AIです。日本語を含む70以上の言語に対応しており、第三者機関のArtificial Analysisが実行したテストでは業界最高クラスの品質で音声を合成できることが確認されています。Artificial Analysisの検証では、API利用価格と品質スコアの関係において、Gemini 3.1 Flash TTSが安価かつ高性能なモデルであることが示されています。
無料デモサイトにアクセスすると、「シーン」「文脈」「しゃべらせる内容」を入力することで数秒で音声が合成されます。特に指定せずとも感情や抑揚を再現した高品質な音声が出力されました。
Gemini 3.1 Flash TTSでは「音声タグ」を用いて感情を指定することができます。音声タグは「[amazed]」「[crying]」といったように英語で指定すればOK。使用可能なタグは特に定まっておらず、英語で感情を記せば大体通るとされています。「[whispers]」「[laughs]」「[shouting]」といったタグを追加することで、指示に忠実な音声が出力されます。
Gemini 3.1 Flash TTSで生成した音声データにはAI生成コンテンツであることを示すSynthIDが埋め込まれます。また、Gemini 3.1 Flash TTSの仕様を記したモデルカードが公開されています。
