OpenAI全力強化語音AI 備戰首款「無螢幕」個人裝置

▲▼Sam Altman和Jony Ive。(圖/OpenAI)

▲OpenAI執行長奧特曼(Sam Altman)和艾維(Jony Ive)。(圖/OpenAI)

記者吳立言/綜合報導 

OpenAI 正加速布局「以語音為核心」的下一代 AI 裝置。外媒指出,OpenAI 近來大幅整合內部研發資源,全面強化音訊人工智慧能力,為未來推出首款主打語音互動、幾乎不依賴螢幕的消費級硬體產品提前鋪路。

[廣告] 請繼續往下閱讀.

根據《The Information》報導,多名知情人士透露,OpenAI 內部已明確認定,現行主流裝置並非為 AI 時代量身打造,公司未來硬體方向,將以「聽覺互動」取代傳統螢幕操作。

音訊模型成關鍵短板

目前 ChatGPT 的語音功能,與文字回應背後所使用的模型並不相同。OpenAI 研究團隊認為,現有音訊模型在準確度與即時反應上明顯落後,成為語音體驗的瓶頸。為此,OpenAI 在過去兩個月內整合工程、產品與研究團隊,集中火力補強音訊 AI 能力。

指向「無螢幕」硬體藍圖

[廣告] 請繼續往下閱讀..

這項策略調整,直接對應 OpenAI 的硬體計畫:打造一款可透過自然語音指令操作的個人 AI 裝置。先前已有消息指出,首款產品距離正式問世仍至少需要一年時間。 隨著新音訊架構導入,OpenAI 的語音模型已能生成更自然、具情感層次的回應,並支援與人類同時發聲、即時應對打斷等互動情境。相關模型預計於 2026 年第一季正式對外發布。

語音才是最直覺的互動方式

在硬體設計理念上,OpenAI 的判斷與 Google、亞馬遜、Meta、蘋果相近,認為現有裝置形態限制了 AI 的發揮。OpenAI 團隊希望使用者能「開口說話」而非「低頭看螢幕」,主張語音才是最貼近人類溝通本能的介面。

艾維:無螢幕有助降低沉迷、用戶習慣才是最大挑戰

[廣告] 請繼續往下閱讀...

參與硬體專案的知名設計師喬尼・艾維(Jony Ive)也指出,無螢幕設計不僅更自然,還有助於避免使用者過度沉迷裝置。他認為,新世代消費性電子產品應正視過去帶來的負面影響,並承擔修正責任。 不過,OpenAI 內部也坦言,目前不少 ChatGPT 使用者仍未養成語音操作的習慣,原因除了音訊體驗尚未成熟,也與使用者對功能的認知不足有關。在推出「音訊優先」的 AI 裝置之前,如何改變使用行為,仍是關鍵挑戰。

OpenAI 已成立專門團隊推動音訊 AI 戰略。來自 Character.AI 的語音研究員昆丹・庫馬爾負責整體方向,本・紐豪斯主導音訊底層架構重建,多模態 ChatGPT 產品經理潔基・香農也參與其中。

不只一款產品 打造整條產品線

消息指出,OpenAI 並非只規劃單一裝置,而是構想一整條產品線,包含智慧眼鏡與無螢幕智慧音箱等。內部目標是讓這類裝置成為「伴隨式 AI 助手」,在獲得授權前提下,主動理解環境與使用者需求,並透過音訊與影像持續提供協助。

為支撐這項長期硬體布局,OpenAI 已於 2025 年初斥資近 65 億美元,收購喬尼・艾維共同創辦的 io,並同步推進供應鏈、工業設計與模型研發。隨著語音 AI 能力逐步到位,OpenAI 是否能真正打開「無螢幕 AI 裝置」市場,外界正拭目以待。