OpenAI全力強化語音AI　備戰首款「無螢幕」個人裝置

2026年01月2日 09:00

▲OpenAI執行長奧特曼（Sam Altman）和艾維（Jony Ive）。（圖／OpenAI）

記者吳立言／綜合報導

OpenAI 正加速布局「以語音為核心」的下一代 AI 裝置。外媒指出，OpenAI 近來大幅整合內部研發資源，全面強化音訊人工智慧能力，為未來推出首款主打語音互動、幾乎不依賴螢幕的消費級硬體產品提前鋪路。

[廣告] 請繼續往下閱讀.

根據《The Information》報導，多名知情人士透露，OpenAI 內部已明確認定，現行主流裝置並非為 AI 時代量身打造，公司未來硬體方向，將以「聽覺互動」取代傳統螢幕操作。

音訊模型成關鍵短板

目前 ChatGPT 的語音功能，與文字回應背後所使用的模型並不相同。OpenAI 研究團隊認為，現有音訊模型在準確度與即時反應上明顯落後，成為語音體驗的瓶頸。為此，OpenAI 在過去兩個月內整合工程、產品與研究團隊，集中火力補強音訊 AI 能力。

指向「無螢幕」硬體藍圖

[廣告] 請繼續往下閱讀..

這項策略調整，直接對應 OpenAI 的硬體計畫：打造一款可透過自然語音指令操作的個人 AI 裝置。先前已有消息指出，首款產品距離正式問世仍至少需要一年時間。隨著新音訊架構導入，OpenAI 的語音模型已能生成更自然、具情感層次的回應，並支援與人類同時發聲、即時應對打斷等互動情境。相關模型預計於 2026 年第一季正式對外發布。

語音才是最直覺的互動方式

在硬體設計理念上，OpenAI 的判斷與 Google、亞馬遜、Meta、蘋果相近，認為現有裝置形態限制了 AI 的發揮。OpenAI 團隊希望使用者能「開口說話」而非「低頭看螢幕」，主張語音才是最貼近人類溝通本能的介面。

艾維：無螢幕有助降低沉迷、用戶習慣才是最大挑戰

[廣告] 請繼續往下閱讀...

參與硬體專案的知名設計師喬尼・艾維（Jony Ive）也指出，無螢幕設計不僅更自然，還有助於避免使用者過度沉迷裝置。他認為，新世代消費性電子產品應正視過去帶來的負面影響，並承擔修正責任。不過，OpenAI 內部也坦言，目前不少 ChatGPT 使用者仍未養成語音操作的習慣，原因除了音訊體驗尚未成熟，也與使用者對功能的認知不足有關。在推出「音訊優先」的 AI 裝置之前，如何改變使用行為，仍是關鍵挑戰。

OpenAI 已成立專門團隊推動音訊 AI 戰略。來自 Character.AI 的語音研究員昆丹・庫馬爾負責整體方向，本・紐豪斯主導音訊底層架構重建，多模態 ChatGPT 產品經理潔基・香農也參與其中。

不只一款產品　打造整條產品線

消息指出，OpenAI 並非只規劃單一裝置，而是構想一整條產品線，包含智慧眼鏡與無螢幕智慧音箱等。內部目標是讓這類裝置成為「伴隨式 AI 助手」，在獲得授權前提下，主動理解環境與使用者需求，並透過音訊與影像持續提供協助。

為支撐這項長期硬體布局，OpenAI 已於 2025 年初斥資近 65 億美元，收購喬尼・艾維共同創辦的 io，並同步推進供應鏈、工業設計與模型研發。隨著語音 AI 能力逐步到位，OpenAI 是否能真正打開「無螢幕 AI 裝置」市場，外界正拭目以待。

關鍵字： OpenAI, 語音AI, 無螢幕, 艾維, 硬體布局