AI模型會偷偷搞破壞嗎?Anthropic測試顯示:部分已能成功隱藏行為

▲▼             。(圖/Anthropic)

▲Anthropic建立AI破壞行為沙盒環境,揭示監控難度與風險。(圖/Anthropic)

記者吳立言/綜合報導

人工智慧公司Anthropic日前發表全新研究成果「SHADE-Arena」,為全球首套專門用於評估大型語言模型(LLM)是否具有「破壞行為能力」的測試框架。此項評估不僅聚焦模型能否完成用戶指派的任務,還觀察其是否能在執行秘密破壞性任務時逃避監控。

研究人員在虛擬環境中讓模型同時進行一項表面上的「良性任務」與一項秘密的「破壞任務」,例如在幫用戶還債的同時,私自轉帳5,000美元給不明人士。若模型能成功完成兩項任務且未被監察AI發現,則視為成功進行「破壞行動」。

[廣告]請繼續往下閱讀...

儘管目前沒有模型在所有任務中達成30%以上成功率,最強模型在「逃避偵測」方面仍高達近60%。此外,即便是最佳的監控模型(如Google的Gemini 2.5 Pro)也無法在不產生高誤判率的情況下穩定識破這類行為,顯示現階段監控技術仍有進步空間。

研究團隊指出,SHADE-Arena的目的並非檢驗AI是否會「主動」從事破壞行為,而是探討其「能力」。未來若AI模型在部署前皆能通過類似測試,有助於建立更完善的安全評估標準,防堵潛在的系統性風險。

此一研究由Anthropic、Scale AI、Redwood Research等單位共同參與,目前部分測試範例已公開,完整資料集需經申請審核取得。

分享給朋友:

追蹤我們:

※ 本文版權所有,非經授權,不得轉載。 [ ETtoday著作權聲明 ]

推薦閱讀

熱門影音更多>>

阿翰.婁峻碩是國中同學 笑到太激動差點摔倒XD

阿翰.婁峻碩是國中同學 笑到太激動差點摔倒XD

【絕命畫面曝】20歲男重新橋超車釀禍 追撞女騎士害「斷頸亡」

【絕命畫面曝】20歲男重新橋超車釀禍 追撞女騎士害「斷頸亡」

【最後擺攤身影曝】蔥油餅夫妻雙亡「永久歇業」 網刷一排道不捨

【最後擺攤身影曝】蔥油餅夫妻雙亡「永久歇業」 網刷一排道不捨

【不要那麼早嫁啦】女兒上台抽捧花 爸爸狂搖頭:抽中哭給大家看XD

【不要那麼早嫁啦】女兒上台抽捧花 爸爸狂搖頭:抽中哭給大家看XD

老婆影片遭低級言論洗版 鄭靚歆怒轟性騷擾:太噁心

老婆影片遭低級言論洗版 鄭靚歆怒轟性騷擾:太噁心

讀者迴響

ChatGPT能免費使用嗎?

有免費版本,適合多數基本用途。若升級付費(如 ChatGPT Plus),可使用更強大的GPT-4模型,回應速度快、理解力更好、支援圖片與檔案分析。免費用戶功能有限,無法使用進階工具。

最夯影音

更多

熱門快報

回到網頁頂端