為何AI有幻覺？研究：訓練制度誘錯答　機器人寧可裝懂

▲OpenAI所開發的ChatGPT有時答非所問，原來是和開發過程中的測驗模式有關。（示意圖／翻攝自photoAC）

圖文／CTWANT

人工智慧（AI）工具如今廣泛應用在民眾各生活領域，但有時當使用者提出簡單的問題，聊天機器人（Chatbot）可能會自信滿滿地給出錯誤答案。對此，AI聊天機器人龍頭ChatGPT的開發商OpenAI與美國喬治亞理工學院組成的研究團隊最新發現，此非程式故障，而是AI在開發過程中的訓練和測驗方式造成的結果。

研究團隊解釋，AI是靠讀取大量公開的文字資料，例如網路上的文章、書籍、新聞、網站內容，學習「下一個字應是什麼」。常見的知識因在資料裡出現很多次，AI容易答對，但如果是很冷門的資訊，例如一個很少在公開資料裡提到的生日，AI幾乎找不到規律可學，只好亂掰。這些「沒出現在資料裡的東西」，就是AI最容易出錯的地方。

不過，問題不只出在資料。研究團隊指出，AI在開發過程中會經過所謂的「測驗（Benchmark）」，就像校正模型的考試。測驗的評分方式通常只分對或錯，不會給「我不知道」的部分分數，如果AI回答「我不知道」，就會被當成錯誤，和亂答一樣被扣分。這種制度間接鼓勵AI亂猜，而非誠實承認「我不知道」。研究團隊比喻，就像學生考選擇題，空白不寫會被扣分，所以學生寧願亂猜。

[廣告]請繼續往下閱讀...

研究團隊也在實驗中，請AI說出OpenAI其中一名開發人員亞當卡萊（Adam Kalai）的生日，結果AI給出3個不同的日期，竟全都錯，後來甚至連算「一個英文單字有幾個字母」這種簡單問題，也能算錯，顯示問題不只是出在冷門知識不易回答，也和AI本身的系統性限制有關，導致它在處理基礎任務時同樣可能出錯。

研究人員建議，未來AI開發過程中的測驗方式應修改，不要讓亂掰比誠實更划算。新的方式應該對「自信卻錯誤」的回答扣比較多分，對「承認不知道」則給部分分數。這樣AI才會被訓練成更準確的工具，而不是硬要裝懂。

延伸閱讀
▸ 丈夫重病失去意識！妻急提領2千萬還債　少「1證明」遭課遺產稅
▸ 護理師巧遇車禍幫忙救人「傷者竟是男友」　搶救不治痛哭癱倒
▸ 原始連結