GPT Image 1.5 vs Nano Banana Pro 修圖與生成實測到底誰更強

▲▼             。(圖/記者吳立言攝)

記者吳立言/綜合報導

OpenAI 今(17日)推出 GPT Image 1.5,主打更精準的語意理解與影像編輯一致性;另一方面,由 Google Gemini 系列模型驅動的 Nano Banana Pro,則強調強推理能力與工作室級畫面品質吸引專業創作者目光。

[廣告] 請繼續往下閱讀.

但對實際進行影像創作、後製或設計工作的使用者而言,重點並不在模型「看起來有多強」,而是在不同創作任務中,哪一個更可靠、好用、符合直覺?本文透過三種常見的實際使用情境進行測試,比較 GPT Image 1.5 與 Nano Banana Pro 在生成準確度、修改邏輯與複合任務中的表現差異。

測試一:直接依提示詞生成影像

第一組測試為最基本、也最常見的使用情境:僅提供文字描述,由模型直接生成影像。在這項測試中,Nano Banana Pro 的整體準確度略勝一籌。生成結果在場景配置、地點氛圍與環境細節上,普遍更貼近現實世界的設定。例如空間結構、城市感受或氣候氛圍的呈現,都較符合人類對真實場景的直覺理解。

推測其優勢,可能來自 Google 長期累積並整合的地理資訊、地圖資料與環境知識,使 Gemini 系列模型在「場景理解」與「背景合理性」方面具備結構性優勢。

[廣告] 請繼續往下閱讀..

相較之下,GPT Image 1.5 在此情境中表現穩定,但在部分細節包括時間、氣候數據的採集則略遜 Nano Banana Pro。若目標是一次生成就接近現實世界設定,Nano Banana Pro 在純生成任務中表現較為突出。

測試二:既有圖片的修改與調整

[廣告] 請繼續往下閱讀...

第二組測試轉向實務創作中常見的需求:在既有圖片基礎上進行修改,包含物件調整、畫面變化或內容延伸。在這個環節,GPT Image 1.5 展現出較強的邏輯一致性。修改後的影像在整體視覺連續性、內容合理性與敘事一致性上較為穩定,較少出現「看得出被硬改」的痕跡,對於需要反覆調整、逐步微調的工作流程相對友善。

另一方面,Nano Banana Pro 雖然在敘事延續性上稍顯保守,但在物理層面的合理性表現更佳,例如光線方向、陰影關係、物體遮擋與空間深度等細節處理得較自然,顯示其對現實物理規則的掌握仍具優勢。

圖片修改任務中,GPT Image 1.5 偏向「邏輯與連續性」,Nano Banana Pro 則偏向「物理與現實合理性」。

測試三:照片合併並改動場景

第三組測試為難度最高的情境:將多張照片進行合併,並同時改動整體場景設定。

在此測試中,兩個模型的表現相當接近。無論是元素融合、畫面整合程度或整體完成度,皆未出現明顯差距。兩者都能在合理範圍內完成複合指令,生成結果具備可用水準。

雖然在細節取向上仍可看出各自風格差異,但不足以構成明確優劣,整體評價屬於實質上的平手。

從三組測試結果來看,GPT Image 1.5 與 Nano Banana Pro 並非誰全面勝出,而是反映出不同的設計取向:

GPT Image 1.5

優勢:語意理解清楚、修改邏輯一致

適合:需要反覆調整、重視敘事與控制感的創作流程

Nano Banana Pro

優勢:真實世界理解、物理與環境合理性

適合:追求高度寫實、一次生成完成度高的使用情境

實際選擇何者,取決於創作者在工作流程中,是更重視邏輯控制與可預期性,還是場景真實度與現實貼合度。