
▲Google DeepMind 執行長哈薩比斯(Demis Hassabis)。(圖/路透)
記者吳立言/綜合報導
在近期舉行的 Axios AI+ 峰會 上,Google DeepMind 執行長哈薩比斯(Demis Hassabis)提出他對 2026 年人工智慧發展的最新判斷,點名「多模態模型」、「互動式影片世界」以及「更可靠的 AI 代理」將成為未來一年的三大關鍵趨勢。
哈薩比斯表示,DeepMind 旗下最新模型 Gemini 在多模態能力上已出現明顯躍進,不再只侷限於描述畫面表象,而是能理解情節與角色動機等深層含義。
他舉例指出,在電影《鬥陣俱樂部》中,AI 不僅能看出角色摘下戒指這個動作,還能推論其背後象徵的是對原本日常生活的一種放棄與抽離。這類「語意層級」的理解,使模型得以產出更高層次的內容,例如結構完整的資訊圖表,而不只是單純的文字或圖像描述。
在代理型 AI 的進展上,哈薩比斯預測,大約在一年左右,AI 代理人就能「接近」自主處理複雜任務。他強調,DeepMind 的目標是打造一個可跨裝置運作的通用助手,未來可協助一般使用者管理行程、文件、線上操作等日常事項,從單一工具走向「長期協作夥伴」角色。
為了支撐這樣的應用場景,DeepMind 也同步研發代號為 「Genie 3」 的世界模型。哈薩比斯指出,這類模型可以生成可探索、可互動的影片式虛擬空間,讓使用者不再只是「看影片」,而是可以在其中移動、操作與體驗,接近遊戲與模擬環境的結合形態,被視為未來虛擬世界與內容創作的重要基礎技術之一。
哈薩比斯此次對 2026 年的時間表,與他在 2024 年 5 月提出的預估大致一致,也顯示 DeepMind 對多模態模型、互動式世界建模以及 AI 代理人落地節奏,仍抱持相對明確且樂觀的看法。不過,他也暗示,安全性、可靠性與使用者信任,將是這些技術能否大規模導入真實世界的關鍵考驗。
