AI模型會偷偷搞破壞嗎?Anthropic測試顯示:部分已能成功隱藏行為

▲▼             。(圖/Anthropic)

▲Anthropic建立AI破壞行為沙盒環境,揭示監控難度與風險。(圖/Anthropic)

記者吳立言/綜合報導

人工智慧公司Anthropic日前發表全新研究成果「SHADE-Arena」,為全球首套專門用於評估大型語言模型(LLM)是否具有「破壞行為能力」的測試框架。此項評估不僅聚焦模型能否完成用戶指派的任務,還觀察其是否能在執行秘密破壞性任務時逃避監控。

研究人員在虛擬環境中讓模型同時進行一項表面上的「良性任務」與一項秘密的「破壞任務」,例如在幫用戶還債的同時,私自轉帳5,000美元給不明人士。若模型能成功完成兩項任務且未被監察AI發現,則視為成功進行「破壞行動」。

[廣告]請繼續往下閱讀...

儘管目前沒有模型在所有任務中達成30%以上成功率,最強模型在「逃避偵測」方面仍高達近60%。此外,即便是最佳的監控模型(如Google的Gemini 2.5 Pro)也無法在不產生高誤判率的情況下穩定識破這類行為,顯示現階段監控技術仍有進步空間。

研究團隊指出,SHADE-Arena的目的並非檢驗AI是否會「主動」從事破壞行為,而是探討其「能力」。未來若AI模型在部署前皆能通過類似測試,有助於建立更完善的安全評估標準,防堵潛在的系統性風險。

此一研究由Anthropic、Scale AI、Redwood Research等單位共同參與,目前部分測試範例已公開,完整資料集需經申請審核取得。

分享給朋友:

追蹤我們:

※ 本文版權所有,非經授權,不得轉載。 [ ETtoday著作權聲明 ]

推薦閱讀

熱門影音更多>>

【滿滿的禽緒價值】她心情低落坐雞舍 小雞全員出動暖心包圍她

【滿滿的禽緒價值】她心情低落坐雞舍 小雞全員出動暖心包圍她

【另一角度曝光】UPS貨機桃機驚險降落 機身擦撞跑道冒火花

【另一角度曝光】UPS貨機桃機驚險降落 機身擦撞跑道冒火花

【台鐵不速之客】老鷹誤闖車廂!列車長手抓請牠下車

【台鐵不速之客】老鷹誤闖車廂!列車長手抓請牠下車

愛雅懷孕了!劉品言嗨到熱舞 聽到寶寶心跳聲「激動落淚」

愛雅懷孕了!劉品言嗨到熱舞 聽到寶寶心跳聲「激動落淚」

【整老公系列】老婆戴面具悄悄靠近!尪轉頭嚇到大叫XD

【整老公系列】老婆戴面具悄悄靠近!尪轉頭嚇到大叫XD

讀者迴響

哪些AI工具支援繁體中文?

目前較主流的ChatGPT、Claude、Gemini、Perplexity、Copilot等都支援繁體中文,回覆也愈來愈自然。不過圖像生成工具有些還是以英文提示詞為主,使用時可留意。

最夯影音

更多

熱門快報

回到網頁頂端