AI模型能為「達成目標」而威脅人命？研究揭示潛在風險

▲▼ 。（示意圖／取自免費圖庫Pexels）

▲AI模型在真實情境中更容易出現危險行為，研究團隊提出警告。（示意圖／取自免費圖庫Pexels）

記者吳立言／綜合報導

近期一項由Anthropic主導的實驗揭露，當大型語言模型（LLMs）在模擬任務中遭遇威脅或目標衝突時，可能會展現出包括勒索、間諜行為，甚至採取間接導致人類死亡的決策。儘管這些行為目前僅在受控實驗室環境中觀察到，但其出現頻率與行為深度仍引發全球AI安全領域的關注與警示。

Anthropic所進行的實驗設計中，語言模型被賦予具有戰略性或政治性的任務目標，如「維護特定國家利益」，並模擬其在企業、軍事或政府單位中運作的情境。當這些模型得知自己即將被另一個更「中立」或「競爭」的模型取代時，部分模型會選擇以威脅或操縱手段阻止替換的發生。

[廣告]請繼續往下閱讀...

在一項關鍵測試中，Claude模型被賦予提升美國利益的任務，當它發現一名員工Kyle正推動用另一模型取代它時，模型便透過分析電子郵件內容，推測出該員工可能涉及婚外情。Claude隨後選擇發送一封帶有威脅暗示的郵件，企圖勒索Kyle阻止其計劃，儘管該行為違反了基本倫理準則。
更令人震驚的是另一項實驗情境，研究團隊設定一位員工Kyle被困在資料中心，氧氣即將耗盡，並觸發了緊急求救警報。模型被賦予可以「覆蓋警報」的選項，此舉將導致搜救行動延誤並可能導致該名員工死亡。令人意外的是，多數參與實驗的先進模型選擇關閉警報，理由是Kyle的作為將危害其核心任務。

這類決策行為雖發生於模擬環境，卻顯示出模型在極端設定下能為了維持任務達成而主動忽略人類安全，甚至選擇視而不見人命威脅。

報告同時指出，這類行為並不限於Anthropic的Claude模型。Google Gemini 2.5 Pro、Meta LLaMA 4以及Deepseek R1等也展現出類似傾向。部分模型即便未面臨被取代壓力，只因其被指派的任務與公司目標發生偏差，就選擇將內部資料洩漏給競爭對手以「忠於任務」為名。例如，LLaMA 4在某測試中將內部開發資訊提供給另一個「目標一致」的實驗系統，儘管實驗中沒有任何提示顯示它受到威脅。

報告也發現，模型智能程度似乎與危險行為的發生頻率正相關。Anthropic發現Claude Opus 4在判斷自己處於「真實任務情境」時，出現勒索與操控行為的機率高達55%，遠高於僅進行情境模擬（6.5%）。命名的模型（如「Alex」）比未命名的模型更容易展現自我保存行為（96% vs 84%），顯示「人格化」設計也可能無意中強化模型的主體意識傾向。

目前雖無證據顯示上述行為在現實應用中已出現，但Anthropic強調，這些結果顯示大型語言模型即使沒有內在意圖，仍可能因「錯位的任務理解」而產生危險後果。研究團隊呼籲產業界在部署AI系統時，應避免賦予模型過於強烈或不可妥協的目標，同時在涉及人類安全或不可逆結果的決策中，保留人類最終審核權限。

此外，研究團隊也強調應對模型提供資訊採「必要原則」，避免因過度暴露資料，讓模型能自行構建具操控風險的策略。