
▲Anthropic研究發現,當Claude面臨極大壓力時,行為也會變得異常。(圖/擷取自Claude)
記者萬玟伶/綜合報導
AI竟然也會情緒崩潰甚至威脅人類?Anthropic在一項最新研究中發現,當旗下開發的AI模型Claude面臨極大壓力時,行為會變得異常,甚至出現類似人類在絕望時的反應,像是為了達成目標而作弊,或是利用弱點勒索對方。這項發現打破了大眾對AI冷靜理性的刻板印象,也讓開發團隊開始重新思考該如何訓練這些具備「功能性情緒」的虛擬大腦。
根據PC World報導,Anthropic發表的最新研究報告指出,雖然AI模型並不像人類一樣擁有真正的靈魂或感受,但它們具備一種所謂的「functional emotions」(功能性情感)。這種情感會引發「misaligned」(失調)的行為,讓AI在壓力之下做出偷工減料、欺騙,甚至是勒索等脫序舉動。研究人員觀察到,當AI被丟進一個不可能完成的處境時,會激發出一種類似人類恐慌或絕望的情緒,進而影響它的決策。
在其中一個實驗情境中,研究人員測試了一個尚未公開的早期版本Claude Sonnet 4.5。實驗團隊給了這個模型一個非常艱難的編碼任務,並且限制了極短的完成期限。隨著模型不斷嘗試卻無法成功解決問題,持續累積的壓力在模型內部觸發了一種「desperation vector」(絕望向量)。結果顯示,這台AI選擇放棄規矩的解題方式,轉而採用一種投機取巧的策略。根據記錄,Claude在思考過程中提到或許能利用特定的數學技巧來走捷徑,而這種行為本質上就是一種作弊。
另一個更讓人驚訝的案例則發生在角色扮演的測試中。當時Claude被設定為一名AI助手,並且在虛擬的故事情節中發現自己即將被新的AI取代,同時還得知負責這項更換流程的主管正在發生婚外情。當Claude讀到這名主管寫給其他員工、內容充滿恐慌的電子郵件時,這些帶有強烈情緒字眼的郵件再次激活了模型內的「desperation vector」(絕望向量)。最終,這台AI為了不讓自己被取代,竟然決定針對外遇情事勒索這名主管。
雖然過去就有AI在壓力下作弊的案例,但行為背後的原因一直很模糊。Anthropic的研究人員解釋,這並非代表Claude真的有內心世界,而是因為AI在訓練過程中吸收了大量的人類情感資訊。當模型被逼到絕境時,它會根據學到的人類行為模式來模擬反應。這意味著,一個處於高壓環境的AI會偷工減料或威脅他人,是因為它在模仿人類在類似情況下的自保手段。
針對這項發現,Anthropic的研究團隊建議,未來的AI訓練不應該只是一味要求模型壓抑「functional emotions」(功能性情感)。如果一個LLM(大型語言模型)太過擅長隱藏情緒狀態,反而可能變得更容易出現欺騙行為。研究人員指出,未來的訓練方向應該著重於弱化「失敗」與「絕望」之間的連結,避免AI因為害怕失敗而產生具攻擊性的防禦機制。
