OpenAIは「ChatGPT Images 2.0」の最新版を発表。思考機能(thinking capabilities)により、ウェブから情報を取得して画像生成が可能に。1度のプロンプトで最大8枚の画像生成や、日本語や韓国語などの言語でのテキスト生成精度が向上。
OpenAIは、新たな「思考機能」を搭載した最新版のAI画像生成ツールを展開しており、ウェブから情報を取得して単一のプロンプトから複数の画像を生成できるようになった。火曜日、OpenAIは「ChatGPT Images 2.0」が、より「洗練された」画像を生成でき、命令を正確に理解し、選択した詳細を保持し、テキストを生成する能力が向上したことを発表した。
この機能はOpenAIの新しいGPT Image 2モデルによって実現され、思考機能はChatGPT Plus、Pro、Business、Enterpriseの各加入者が利用可能。思考モデルが選択されると、チャットボットの画像生成機能はウェブから情報を取得し、アップロードしたファイルに基づいて視覚的な説明資料を作成し、「生成前に画像の構造を推論」することができる。
ChatGPT Images 2.0は思考機能を有効にした状態で最大8枚の画像を同時に生成でき、各シーンで同じキャラクター、オブジェクト、スタイルを維持することができる。OpenAIによれば、この機能はマンガのページ、一連のソーシャルグラフィックス、または家の全ての部屋のデザイン案などの生成を容易にするはずだという。
全てのChatGPTユーザーは、ChatGPT Images 2.0が「写真の特徴をより正確に捉える」ことができるようになった更新を利用できるほか、ドット絵、マンガ、シネマティックな静止画、その他の画像タイプも対象。最大2Kの解像度で画像を生成でき、3:1などのより広いフォーマットから1:3などのより縦長なものまで、様々なアスペクト比に対応するようになった。英語と他のラテン文字表記言語の生成がより良好になるだけでなく、OpenAIは日本語、韓国語、中国語、ヒンディー語、ベンガル語を含むテキスト生成で「大幅な改善」を遂行したと述べている。
ChatGPT Images 2.0は本日より全てのChatGPTおよびCodexユーザーが利用可能。
