▲從DALL·E到Codex,OpenAI全面推進創作與開發自動化 。(圖/YouTube@openai)
記者吳立言/綜合報導
在最新一集OpenAI官方Podcast中,核心開發成員Mark Chen、Nick Turley和Andrew Mayne分享了ImageGen(圖像生成模型)DALL·E 3與Codex的開發歷程,並提出未來AI工具將如何從「即時對話」邁向「代理式任務」的新範式。他們認為,AI 不僅正在改變創作流程與工程開發模式,也將重塑人們與工具的關係。
Nick Turley將ImageGen的推出形容為「迷你版的ChatGPT時刻」在開發階段已讓內部團隊驚艷,正式開放後也迅速獲得廣大迴響。Mark Chen指出,DALL·E 3最大的技術突破在於能一次性生成「貼近指令」且風格一致的圖像,解決了早期模型難以處理複雜結構與風格轉換的問題。
他們觀察到,雖然用戶最初多用於娛樂、創意用途(如動漫角色、自畫像),但實際應用遠比預期廣泛,包括製作簡報插圖、漫畫分鏡、家居模擬與資訊圖表等。這反映圖像生成工具的實用性已超越單純視覺生成。
早期DALL·E對於圖像輸出設定嚴格限制,例如禁止生成人臉與特定內容,導致使用體驗不佳。Nick Turley坦言,團隊過去傾向預防所有潛在風險,但後來意識到:過度限制反而阻礙了許多正面、有益的應用。
因此,ImageGen推出時改採「允許後觀察」策略,透過開放功能、觀察問題、再調整的方式實施 AI 安全。團隊指出,像臉部上傳與個人化回饋等功能若處理得當,能大幅提升使用價值。
OpenAI團隊同時也回顧了Codex的發展歷程,從GPT-3能生成簡單React組件開始,到專門訓練模型處理大型程式任務。Mark Chen提出「Agentic Coding」(代理式編程)概念,使用者給模型一個複雜任務,模型在背景中花數分鐘到數小時運算後,回傳整體解法。這與ChatGPT的即時問答模式不同,代表AI編程將朝非同步、自動化邏輯思考發展。Codex的早期應用就包含bug修復、新功能開發等重型任務,而非只幫忙補幾行程式碼。
Nick Turley認為,程式碼儘管可驗證性高,但依然充滿「品味」與選擇。他指出,優秀的軟體工程不只關於正確答案,更牽涉到測試設計、文件撰寫與跨團隊協作,這些都是AI仍需學習的軟技能。OpenAI團隊強調,所有程式碼工具都在內部實際使用,包含自動回報錯誤、標記Slack、生成PR(Pull Request)、建立任務清單等。Mark Chen表示「如果我們自己都不用,我們不會公開發表。」
這種「內部真實應用」被視為產品成熟度的檢驗機制。Nick Turley更指出,這些工具讓一位工程師的生產力提升至原來的10倍,並加速整體工程流程。在展望未來時,Mark Chen與Nick Turley均提到,AI工具將不再只停留在「即時對答」的模式,而是發展出能主動出擊、執行長期任務的「代理人(Agent)」型工具。
他們預期未來工具會允許AI自行展開調查、收集資訊並等待用戶回應,這需要打破目前「同步等待」的限制。Turley形容「這種模式更像助理,而非問答機器。」此外,Mark Chen更表示AI將成為研究、科學與數學領域的推進器,已有學者將GPT模型當作子系統,用於化簡公式與解決子問題。這顯示AI推理能力將加速科學發現與學術進展。
從圖像生成到Codex的程式編寫,再到「代理式AI工具」的未來藍圖,OpenAI將實驗精神落實在每一次部署之中。他們不僅關注模型效能,更在思考人與工具的新關係。AI不再只是協助完成任務,而是逐漸成為使用者日常決策、創意與執行的核心夥伴。