AI模型會偷偷搞破壞嗎?Anthropic測試顯示:部分已能成功隱藏行為

▲▼             。(圖/Anthropic)

▲Anthropic建立AI破壞行為沙盒環境,揭示監控難度與風險。(圖/Anthropic)

記者吳立言/綜合報導

人工智慧公司Anthropic日前發表全新研究成果「SHADE-Arena」,為全球首套專門用於評估大型語言模型(LLM)是否具有「破壞行為能力」的測試框架。此項評估不僅聚焦模型能否完成用戶指派的任務,還觀察其是否能在執行秘密破壞性任務時逃避監控。

研究人員在虛擬環境中讓模型同時進行一項表面上的「良性任務」與一項秘密的「破壞任務」,例如在幫用戶還債的同時,私自轉帳5,000美元給不明人士。若模型能成功完成兩項任務且未被監察AI發現,則視為成功進行「破壞行動」。

[廣告]請繼續往下閱讀...

儘管目前沒有模型在所有任務中達成30%以上成功率,最強模型在「逃避偵測」方面仍高達近60%。此外,即便是最佳的監控模型(如Google的Gemini 2.5 Pro)也無法在不產生高誤判率的情況下穩定識破這類行為,顯示現階段監控技術仍有進步空間。

研究團隊指出,SHADE-Arena的目的並非檢驗AI是否會「主動」從事破壞行為,而是探討其「能力」。未來若AI模型在部署前皆能通過類似測試,有助於建立更完善的安全評估標準,防堵潛在的系統性風險。

此一研究由Anthropic、Scale AI、Redwood Research等單位共同參與,目前部分測試範例已公開,完整資料集需經申請審核取得。

分享給朋友:

追蹤我們:

※ 本文版權所有,非經授權,不得轉載。 [ ETtoday著作權聲明 ]

推薦閱讀

熱門影音更多>>

【集體食物中毒?】狗狗躺地翻滾摩擦...原來是在撓癢癢XD

【集體食物中毒?】狗狗躺地翻滾摩擦...原來是在撓癢癢XD

【瞬間奪命】遊覽車轉彎撞機車! 69歲騎士頭部重創亡

【瞬間奪命】遊覽車轉彎撞機車! 69歲騎士頭部重創亡

【驚險1秒逃生】水泥車煞不住猛撞轎車! 再衝人行道婦人險被撞

【驚險1秒逃生】水泥車煞不住猛撞轎車! 再衝人行道婦人險被撞

【開咬】調皮阿金咬沙發被阻止不放棄!爸:你是啄木鳥是不是

【開咬】調皮阿金咬沙發被阻止不放棄!爸:你是啄木鳥是不是

【殘骸散落一地】國道1號凌晨重大車禍! 「33歲駕駛亡」事發經過曝

【殘骸散落一地】國道1號凌晨重大車禍! 「33歲駕駛亡」事發經過曝

讀者迴響

Gemini和ChatGPT有什麼不同?

Gemini是Google開發的AI,擅長整合Gmail、Docs、YouTube等服務,適合重度Google用戶;而ChatGPT則由OpenAI開發,操作簡單、回應速度快,是多數人入門AI的首選。

最夯影音

更多

熱門快報

回到網頁頂端