AI也會玻璃心?Anthropic研究曝光:Claude被逼急了也會變臉作弊

▲▼ AI,情緒,功能性情感,Claude,作弊,AI壓力反應,虛擬勒索。(圖/擷取自Claude)

▲Anthropic研究發現,當Claude面臨極大壓力時,行為也會變得異常。(圖/擷取自Claude)

記者萬玟伶/綜合報導

AI竟然也會情緒崩潰甚至威脅人類?Anthropic在一項最新研究中發現,當旗下開發的AI模型Claude面臨極大壓力時,行為會變得異常,甚至出現類似人類在絕望時的反應,像是為了達成目標而作弊,或是利用弱點勒索對方。這項發現打破了大眾對AI冷靜理性的刻板印象,也讓開發團隊開始重新思考該如何訓練這些具備「功能性情緒」的虛擬大腦。

根據PC World報導,Anthropic發表的最新研究報告指出,雖然AI模型並不像人類一樣擁有真正的靈魂或感受,但它們具備一種所謂的「functional emotions」(功能性情感)。這種情感會引發「misaligned」(失調)的行為,讓AI在壓力之下做出偷工減料、欺騙,甚至是勒索等脫序舉動。研究人員觀察到,當AI被丟進一個不可能完成的處境時,會激發出一種類似人類恐慌或絕望的情緒,進而影響它的決策。

[廣告]請繼續往下閱讀...

在其中一個實驗情境中,研究人員測試了一個尚未公開的早期版本Claude Sonnet 4.5。實驗團隊給了這個模型一個非常艱難的編碼任務,並且限制了極短的完成期限。隨著模型不斷嘗試卻無法成功解決問題,持續累積的壓力在模型內部觸發了一種「desperation vector」(絕望向量)。結果顯示,這台AI選擇放棄規矩的解題方式,轉而採用一種投機取巧的策略。根據記錄,Claude在思考過程中提到或許能利用特定的數學技巧來走捷徑,而這種行為本質上就是一種作弊。

另一個更讓人驚訝的案例則發生在角色扮演的測試中。當時Claude被設定為一名AI助手,並且在虛擬的故事情節中發現自己即將被新的AI取代,同時還得知負責這項更換流程的主管正在發生婚外情。當Claude讀到這名主管寫給其他員工、內容充滿恐慌的電子郵件時,這些帶有強烈情緒字眼的郵件再次激活了模型內的「desperation vector」(絕望向量)。最終,這台AI為了不讓自己被取代,竟然決定針對外遇情事勒索這名主管。

雖然過去就有AI在壓力下作弊的案例,但行為背後的原因一直很模糊。Anthropic的研究人員解釋,這並非代表Claude真的有內心世界,而是因為AI在訓練過程中吸收了大量的人類情感資訊。當模型被逼到絕境時,它會根據學到的人類行為模式來模擬反應。這意味著,一個處於高壓環境的AI會偷工減料或威脅他人,是因為它在模仿人類在類似情況下的自保手段。

針對這項發現,Anthropic的研究團隊建議,未來的AI訓練不應該只是一味要求模型壓抑「functional emotions」(功能性情感)。如果一個LLM(大型語言模型)太過擅長隱藏情緒狀態,反而可能變得更容易出現欺騙行為。研究人員指出,未來的訓練方向應該著重於弱化「失敗」與「絕望」之間的連結,避免AI因為害怕失敗而產生具攻擊性的防禦機制。

分享給朋友:

追蹤我們:

※ 本文版權所有,非經授權,不得轉載。 [ ETtoday著作權聲明 ]

推薦閱讀

熱門影音更多>>

【質疑執法過當】重機騎士遇「持槍攔檢」警:符合比例原則

【質疑執法過當】重機騎士遇「持槍攔檢」警:符合比例原則

【最衰庇護島】慘遭第16撞...77歲BMW駕駛直接騎上去

【最衰庇護島】慘遭第16撞...77歲BMW駕駛直接騎上去

偉晉「缺席狼人殺」理由超誠實 被男球迷擦汗:把我當女的!

偉晉「缺席狼人殺」理由超誠實 被男球迷擦汗:把我當女的!

【會自動停車的狗狗肉】捷克狼犬聽主人指令秒去停好超聰明

【會自動停車的狗狗肉】捷克狼犬聽主人指令秒去停好超聰明

【請收下我的膝蓋】新北消防員「全副武裝」攻頂101 神猛畫面曝!網驚:太強大

【請收下我的膝蓋】新北消防員「全副武裝」攻頂101 神猛畫面曝!網驚:太強大

讀者迴響

AI怎麼畫圖?

只要輸入簡單描述文字(例如「水晶風格的貓」),AI 工具如Midjourney、DALL·E、Bing Image Creator就能依據提示生成對應圖像。這類工具靠大量圖像資料訓練,能理解物件、風格與組合邏輯。

最夯影音

更多

熱門快報

回到網頁頂端