▲OpenAI:改變評估方式,才能減少幻覺。(圖/OpenAI)
記者吳立言/綜合報導
OpenAI與喬治亞理工學院最新研究指出,AI語言模型之所以會出現「幻覺」,也就是一本正經地亂講話,主要原因在於訓練和評估方式本身。
研究團隊發現,目前語言模型的訓練環境偏向獎勵「有答案」而不是「承認不知道」。在這種情況下,模型在遇到不確定的問題時,選擇亂猜往往比不回答更容易獲得高分。久而久之,AI便養成了習慣,寧可冒險輸出錯誤答案,也不願保持沉默。
研究者形容,這就像學生考試時遇到不會的題目,硬猜還可能得分,但空白就一定是零分。這種制度讓模型更傾向自信作答,即使答案不正確。
論文進一步解釋,AI幻覺並不是惡意捏造,而是統計分類上的自然錯誤。當資料不足或知識超出訓練範圍時,這種錯誤就更容易發生。要改善問題,必須重新設計評估方式,讓模型在表示不確定時也能獲得合理評價,而不是單純被懲罰。
研究強調,如果能改變目前的獎勵制度,讓AI在不確定的時候能更誠實表達,未來語言模型的可信度將能明顯提升。