
▲工程師實測僅花300元就能對AI下毒。(圖/取自免費圖庫Pexels)
記者吳立言/綜合報導
一項最新實驗顯示,只需花費約 12 美元(約新台幣300元)註冊網域並編輯維基百科詞條,就能讓多款具備搜尋能力的 AI 聊天機器人誤判虛構事件為真實,凸顯當前大語言模型在資訊來源判讀上的潛在風險。
根據 The Register 報導,一名安全工程師透過簡單操作,成功讓 AI 相信他是德國紙牌遊戲「6 Nimmt!(Take 5,誰是牛頭王)」的 2025 年世界冠軍,然而該賽事實際上並不存在。
網域+維基百科即可誤導 AI
該工程師建立一個看似官方的網站,並在 Wikipedia 詞條中加入「奪冠紀錄」,再以該網站作為引用來源。由於該資訊在網路上成為唯一可查證資料,AI 在進行搜尋整合時,便將其視為可信依據並生成肯定答案。
報導指出,這種手法並非技術門檻極高的攻擊,而是結合傳統 SEO 與資訊操控策略,透過搜尋排序影響 AI 回答內容。
關鍵問題:AI 無法辨識來源真偽
工程師在個人部落格中說明,大語言模型在設計上傾向「信任文本」,無法有效判斷資料來源是否具備真實性或權威性。只要某項資訊在搜尋結果中排名靠前,即可能被直接採納。
這也意味著,若缺乏多來源交叉驗證,AI 可能將單一來源誤認為事實,進而產生錯誤回應。
三大漏洞浮現:檢索、訓練 AI 代理風險
分析指出,此次實驗主要揭露三個層面的潛在問題:
檢索層(RAG)問題:AI 直接依賴搜尋結果排序,缺乏真偽判斷機制
訓練資料風險:若錯誤資訊被長時間收錄,可能進入模型訓練語料
AI 代理應用風險:若 AI 可執行操作,錯誤資訊可能導致實際行為偏差
其中, AI 代理被認為是風險最高的應用場景,因其可能根據錯誤資訊執行具體指令。
假資訊已移除,但問題仍存在
目前相關虛構內容已從維基百科移除,AI 回應中也不再出現該錯誤資訊。然而,這起案例所揭示的「信任來源機制」問題,仍被視為 AI 發展過程中的重要挑戰。
工程師表示,未來 AI 系統可能需加入來源風險提示與資料溯源機制,以降低類似情況發生的可能性。
此次事件顯示,即便是先進的大語言模型,在面對經過設計的網路資訊時,仍可能產生誤判。隨著 AI 應用逐步擴展至更多實務場景,如何提升資訊可信度判斷能力,將成為產業持續關注的關鍵議題。
