▲OpenAI即時API(Realtime API) 。(圖/OpenAI)
記者吳立言/綜合報導
OpenAI宣布正式推出面向生產環境的「即時API(Realtime API)」,核心採用全新的GPT-Realtime模型,能直接生成並處理語音,省去傳統語音轉文字的步驟,進而帶來更自然、更即時的對話體驗。被視為OpenAI在語音交互技術上的重要里程碑,主要應用場景鎖定客服、教育與個人助理等領域。
新模型在技術上強化多項能力,包括辨識笑聲等非語言訊號、同一句話中流暢切換不同語言,並可依指令改變語氣,例如「以友善的法國口音」或「快速而專業」進行表達。此外,新增Cedar與Marin兩種聲音,並全面優化既有聲音樣本。根據基準測試,GPT-Realtime在Big Bench Audio準確率達82.8%(前一代為65.6%),在MultiChallenge與ComplexFuncBench上亦分別提升至30.5%與66.5%,展現對多語言及複雜指令的進一步突破。
新版API也改善整合性,開發者可透過SIP或遠端MCP伺服器串接外部服務,並支援「可重複使用提示」以儲存設定。同時,圖像輸入功能同步上線,用戶能在對話中傳送截圖或照片,讓模型讀取文字或回答相關問題。價格方面,OpenAI宣布全面下調20%,音訊輸入每百萬token為32美元,輸出為64美元,快取輸入則僅需0.40美元。
在安全與隱私部分,OpenAI表示模型能即時終止違規對話,但仍建議開發者加設額外防護措施。歐盟用戶可選擇在境內存儲資料,企業客戶則有專屬規範,確保合規運作。