
▲實測ChatGPT Images 2.0圖像生成能力。(AI協作圖/記者吳立言製作,經編輯審核)
記者吳立言/綜合報導
OpenAI 今(22日)宣布推出全新影像模型「ChatGPT Images 2.0」,主打更高精度的指令理解與圖像生成能力,不僅能處理複雜視覺任務,還能輸出可直接使用的高品質圖片,進一步縮短從構想到成品的距離。
根據 OpenAI 公布資訊,Images 2.0 在細節還原、版面配置與多語言處理等面向均有顯著升級,同步開放給所有ChatGPT 與 Codex 用戶使用,API 則提供開發者透過 gpt-image-2 模型接入。
指令理解大幅進化 細節與排版更精準
此次更新最大亮點在於模型對「複雜指令」的理解能力提升。Images 2.0 能更準確地放置物件、處理元素之間的關係,並完整保留使用者要求的細節。 過去常見的痛點,例如小字模糊、UI 元件錯位或圖像構圖混亂,在新版中大幅改善。官方指出,模型已能穩定處理密集資訊,包括圖示、介面設計與細緻排版,輸出品質最高可達 2K 解析度。
多語言生成能力提升 非英文內容更自然
在語言支援方面,Images 2.0 針對非英語市場進行優化,可生成語意流暢且拼寫正確的文字內容。 這項改進讓 AI 圖像不再侷限於英文場景,對於需要中文、日文或其他語言視覺素材的使用者而言,實用性顯著提升,也更貼近全球市場需求。
視覺風格更成熟 強化寫實與多樣表現
在風格呈現上,Images 2.0 進一步強化寫實能力與藝術風格一致性,無論是照片級影像、電影分鏡、像素風或漫畫風格,都能呈現更穩定的光影、材質與構圖。 這使其特別適合應用於遊戲開發、行銷設計、內容創作與視覺原型製作等場景,提升 AI 圖像在專業領域的可用性。
支援多種長寬比 因應不同應用場景
Images 2.0 支援從 3:1 到 1:3 的多種長寬比例,可直接生成適用於橫幅、簡報、海報與社群媒體的圖像。 這項彈性設計降低後製需求,讓生成內容能更快速融入實際應用場景。
引入「思考能力」 AI 成為視覺協作夥伴
OpenAI 也強調,Images 2.0 是首個具備「思考能力」的影像模型。當搭配具推理能力的 ChatGPT 使用時,模型可搜尋即時資訊、生成多版本圖像、檢查輸出內容,甚至製作功能性 QR Code。 此一更新也意味著 AI 不再只是工具,而是能參與創作流程的「視覺思考夥伴」,進一步分擔從概念發想到設計落地的工作。
隨著 Images 2.0 推出,AI 圖像生成正從「可看」邁向「可用」,不僅提升創作效率,也擴大應用邊界。未來隨著模型持續進化,AI 在設計與內容產業中的角色,預料將更加關鍵。
