Veo 3將推進「世界模型」應用？Google高層發文引發聯想

▲▼Veo3。（圖／Google）

▲Veo3。（圖／Google）

記者吳立言／綜合報導

Google日前推出的影片生成模型Veo 3引發產業關注，是否將成為通往「可玩世界模型（playable world models）」的重要起點？DeepMind執行長Demis Hassabis在社群平台X上釋出耐人尋味的回應，似乎暗示Veo系列未來可能具備遊戲應用潛力。

now wouldn't that be something... https://t.co/WBeCMQye91

[廣告]請繼續往下閱讀...

— Demis Hassabis (@demishassabis) July 2, 2025

一位用戶在X上發文表示「我已經迫不及待想玩自己用Veo 3生成的遊戲影片了，請問什麼時候能有可互動世界模型？」對此，Hassabis轉貼並回應「那該有多酷啊（Now wouldn’t that be something）」。

隔日早上，負責Google AI Studio與Gemini API的產品負責人Logan Kilpatrick也以一串嘴巴拉上拉鍊表情符號回應，再度引發外界猜測。儘管Google發言人隨後強調「目前尚無相關公告」，但可互動世界模型的發展，似乎已是Google AI部門的潛在方向。

目前的Veo 3模型可生成結合真實動態與物理模擬的影片與聲音，並可用於敘事影片製作，例如遊戲中的過場動畫、預告片或故事原型設計。然而，它仍屬於「被動輸出」的生成模型，尚未具備即時互動或預測功能，因此不具備完整的世界模型特性。

相比之下，所謂「世界模型（world models）」指的是能模擬真實環境動態，並可讓AI代理人預測自身行動對環境產生的影響，例如Google旗下DeepMind去年推出的Genie 2，就可生成無限多樣的可互動遊戲世界。根據先前報導，Google 也已組建新團隊，專責發展可模擬現實世界的 AI模型，顯示其將Gemini 2.5 Pro多模態模型朝「擬人化模擬器」方向發展的意圖。
目前最大挑戰仍在於遊戲所需的「即時、可控且一致」模擬環境。業界分析認為，若Google欲進軍可玩世界領域，可能會採取Veo生成視覺／聲音內容、Genie模擬環境的混合式方案，以兼顧視覺敘事與互動性。

此外，除了Google，前史丹佛教授李飛飛創辦的World Labs也正致力於開發從單張圖像生成遊戲場景的世界模型系統，未來誰將率先建構出可大規模應用的互動世界，仍值得關注。