NVIDIAの研究チームが、画像生成AIの潜在表現を高解像度画像へ直接変換する技術「PiD(Pixel diffusion Decoder)」を発表。従来の低解像度デコード後に超解像するカスケード処理を置き換え、低遅延と高画質の両立を実現する。
NVIDIAの研究チームが、ベクトル的な潜在表現を高解像度画像へ直接変換する「PiD(Pixel diffusion Decoder)」を発表した。PiDは、低解像度でデコードしてから超解像する従来のカスケード処理を置き換え、低遅延と高い視覚品質の両立を目指す技術だ。
現行の画像生成AIは「拡散モデル」が主流で、高解像度のテキスト画像生成はコンパクトな「潜在空間」でデータを圧縮し、その後デコーダーで高解像度な画像へ変換する方式が広く使われている。一方で従来のデコーダーはエンコーダーの出力を復元することに最適化されており、細部を新たに合成する能力やメガピクセル級での効率に課題があった。
PiDは潜在デコードを条件付きピクセル拡散として再定義し、デコードとアップサンプリングを1つの生成モジュールに統合する。潜在表現が全体の構造や意味を与え、ピクセル拡散モデルが高解像度の細部を直接合成する仕組みで、PixelDiTを基盤とするピクセル空間の拡散モデルに軽量なControlNet風アダプターを追加する構成となっている。
このControlNet風アダプターはノイズを含む潜在表現をモデルに注入し、シグマ対応ゲートによって潜在表現をどの程度信頼するかをノイズ量に応じて調整する。この方式により、PiDは4倍または8倍にアップスケールした画像を低遅延で生成できる。
NVIDIAの研究チームは512×512画像に対応する潜在表現を2048×2048ピクセルへ変換する処理を、コンシューマー向けRTX 5090で1秒未満、ピークメモリ13GBで実行できたと報告している。GB200 GPUでは同じ処理を最短210msで実行でき、拡散ベースの超解像カスケードパイプラインと比べて約6倍高速で、視覚的な忠実度も高いと評価されている。
さらにPiDは完全にノイズ除去された潜在表現だけでなく、途中段階の潜在表現も扱える。そのため、ベースとなる潜在拡散モデルの推論を途中で打ち切り、残りをPiD側で高解像度画像へ変換することが可能になる。
DMD2による蒸留で推論を4ステップまで短縮しており、条件なし推論を別途走らせる必要も抑えられているため、高解像度化の工程全体を簡素化する設計となっている。
対応する潜在表現は従来のVAEに限られず、SigLIPやDINOv2のような意味表現を使うRAE系モデルにも適用できる。意味構造は保ちつつ、低レベルの見た目が不足しやすい潜在表現に対して生成的な細部補完を行う。学習データにはMultiAspect-4K-1M、レンダリングされたPDFデータ、内部調達された高解像度画像が使われており、Q-Alignで低品質なサンプルを除外した結果、260万枚の高品質画像が学習に用いられた。
PiDの意義は、画像生成の最終段階にあるデコーダーを単なる復元器ではなく、生成能力を持つ高解像度化モジュールとして位置付け直した点にある。潜在空間で効率よく全体構造を作り、ピクセル空間で細部を合成する設計は、高解像度画像生成の処理時間と品質の両面を改善するアプローチとして注目されている。
