ETtoday新聞雲

>

ETtoday AI科技

ETtoday新聞雲

>

ETtoday AI科技

2025年06月18日 10:05

AI模型會偷偷搞破壞嗎？Anthropic測試顯示：部分已能成功隱藏行為

▲▼ 。（圖／Anthropic）

▲Anthropic建立AI破壞行為沙盒環境，揭示監控難度與風險。（圖／Anthropic）

記者吳立言／綜合報導

人工智慧公司Anthropic日前發表全新研究成果「SHADE-Arena」，為全球首套專門用於評估大型語言模型（LLM）是否具有「破壞行為能力」的測試框架。此項評估不僅聚焦模型能否完成用戶指派的任務，還觀察其是否能在執行秘密破壞性任務時逃避監控。

研究人員在虛擬環境中讓模型同時進行一項表面上的「良性任務」與一項秘密的「破壞任務」，例如在幫用戶還債的同時，私自轉帳5,000美元給不明人士。若模型能成功完成兩項任務且未被監察AI發現，則視為成功進行「破壞行動」。

[廣告]請繼續往下閱讀...

儘管目前沒有模型在所有任務中達成30%以上成功率，最強模型在「逃避偵測」方面仍高達近60%。此外，即便是最佳的監控模型（如Google的Gemini 2.5 Pro）也無法在不產生高誤判率的情況下穩定識破這類行為，顯示現階段監控技術仍有進步空間。

研究團隊指出，SHADE-Arena的目的並非檢驗AI是否會「主動」從事破壞行為，而是探討其「能力」。未來若AI模型在部署前皆能通過類似測試，有助於建立更完善的安全評估標準，防堵潛在的系統性風險。

此一研究由Anthropic、Scale AI、Redwood Research等單位共同參與，目前部分測試範例已公開，完整資料集需經申請審核取得。

關鍵字: Anthropic AI LLM 大型語言模型沙盒

分享給朋友：

追蹤我們：

※ 本文版權所有，非經授權，不得轉載。 [ ETtoday著作權聲明 ]

留言

推薦閱讀

OpenAI下一步國家級合作曝光　高層直言：AI不能只掌握在少數國家手中

OpenAI下一步國家級合作曝光　高層直言：AI不能只掌握在少數國家手中

7分鐘前

微軟Copilot測試「Real Talk」模式　AI不再只會官腔回答

微軟Copilot測試「Real Talk」模式　AI不再只會官腔回答

1小時前

為博流量用AI生成低俗影片　成都警方依法拘留涉案男子

為博流量用AI生成低俗影片　成都警方依法拘留涉案男子

16小時前

Thinking Machines Lab爆發人事震盪　多名核心成員轉投OpenAI

Thinking Machines Lab爆發人事震盪　多名核心成員轉投OpenAI

20小時前

Google重申Gemini暫不置入廣告　AI搜尋成主要變現來源

Google重申Gemini暫不置入廣告　AI搜尋成主要變現來源

22小時前

ChatGPT網頁版升級方向曝光　新增內嵌編輯、任務與進度追蹤

ChatGPT網頁版升級方向曝光　新增內嵌編輯、任務與進度追蹤

23小時前

ChatGPT Go正式全球上線　月費290元主打平價進階AI

ChatGPT Go正式全球上線　月費290元主打平價進階AI

1/19 10:12

韓國AI訂閱支出首度超越Netflix　ChatGPT市占逾7成

韓國AI訂閱支出首度超越Netflix　ChatGPT市占逾7成

1/19 09:45

企業調整招募條件　研究揭示：會AI的人，福利拿得更多

企業調整招募條件　研究揭示：會AI的人，福利拿得更多

1/18 07:10

JD Sports布局AI購物　比價、下單不必離開聊天視窗

JD Sports布局AI購物　比價、下單不必離開聊天視窗

1/18 07:05

A-Lin再玩跨年哏！狂喊「喬山帶我走」　強調沒喝酒...下秒改口：只喝兩口XD

A-Lin再玩跨年哏！狂喊「喬山帶我走」　強調沒喝酒...下秒改口：只喝兩口XD

熱門影音更多>>

阿翰.婁峻碩是國中同學　笑到太激動差點摔倒XD

阿翰.婁峻碩是國中同學　笑到太激動差點摔倒XD

【絕命畫面曝】20歲男重新橋超車釀禍　追撞女騎士害「斷頸亡」

【絕命畫面曝】20歲男重新橋超車釀禍　追撞女騎士害「斷頸亡」

【最後擺攤身影曝】蔥油餅夫妻雙亡「永久歇業」　網刷一排道不捨

【最後擺攤身影曝】蔥油餅夫妻雙亡「永久歇業」　網刷一排道不捨

【不要那麼早嫁啦】女兒上台抽捧花　爸爸狂搖頭：抽中哭給大家看XD

【不要那麼早嫁啦】女兒上台抽捧花　爸爸狂搖頭：抽中哭給大家看XD

老婆影片遭低級言論洗版　鄭靚歆怒轟性騷擾：太噁心

老婆影片遭低級言論洗版　鄭靚歆怒轟性騷擾：太噁心

AI新知熱門新聞

台灣人最常用AI幹嘛？　生圖、聊天竟不是第一

微軟Copilot測試「Real Talk」模式　AI不再只會官腔回答

為博流量用AI生成低俗影片　成都警方依法拘留涉案男子

Google重申Gemini暫不置入廣告　AI搜尋成主要變現來源

燒錢太兇撐不住　ChatGPT要放廣告了！免費用戶先看到

中國用電量飆到全球第一！規模竟是美國2倍　AI電力戰開打

Thinking Machines Lab爆發人事震盪　多名核心成員轉投OpenAI

ChatGPT Go正式全球上線　月費290元主打平價進階AI

Grok圖像功能急踩煞車　X全面封鎖「真人裸露影像生成」

ChatGPT網頁版升級方向曝光　新增內嵌編輯、任務與進度追蹤

讀者迴響

我也要留言，快前往新聞雲App！

ChatGPT能免費使用嗎？

有免費版本，適合多數基本用途。若升級付費（如 ChatGPT Plus），可使用更強大的GPT-4模型，回應速度快、理解力更好、支援圖片與檔案分析。免費用戶功能有限，無法使用進階工具。

科技術語了解更多

熱門AI新知更多新聞

熱門3C家電更多新聞

最夯影音

更多

A-Lin再玩跨年哏！狂喊「喬山帶我走」　強調沒喝酒...下秒改口：只喝兩口XD

A-Lin再玩跨年哏！狂喊「喬山帶我走」　強調沒喝酒...下秒改口：只喝兩口XD

蘆洲夫妻遭砍10多刀慘死　弒親兒認「從小被打罵到大」早就想殺人

蘆洲夫妻遭砍10多刀慘死　弒親兒認「從小被打罵到大」早就想殺人

蘆洲蔥油餅夫妻慘死！兒狂砍37刀放血流乾　警抓到人了

蘆洲蔥油餅夫妻慘死！兒狂砍37刀放血流乾　警抓到人了

高市早苗宣布23日解散眾議院　再提「台灣有事」

高市早苗宣布23日解散眾議院　再提「台灣有事」

虎斑哥「喜當爸」被貓弟狂吸奶　瞇眼開肚發出呼嚕聲超享受XD

虎斑哥「喜當爸」被貓弟狂吸奶　瞇眼開肚發出呼嚕聲超享受XD

熱門快報

東森廣場投籃趣，揪團來打球

東森廣場投籃趣，揪團來打球

假日怎麼安排？來東森廣場免費吹冷氣投籃，輕鬆運動一下！

ETtoday 會員限定爆夾抓抓樂

ETtoday 會員限定爆夾抓抓樂

超好夾零門檻，新手也能一夾入魂！東森廣場抓抓樂，等你來挑戰！

買房不踩雷！購屋決策不盲目！房產大神實力帶飛

買房不踩雷！購屋決策不盲目！房產大神實力帶飛

賞屋攻略Get！別再自己摸索耗時找房，專家親自帶領您直擊潛力優質建案，購屋選擇，就從最給力的賞屋體驗開始。

全聯美味堂快速上桌

全聯美味堂快速上桌

「文里補習班」開課啦！今天來開箱「全聯美味堂」！開箱各種派對美食～

ETtoday攝影棚租借

ETtoday攝影棚租借

ETtoday攝影棚提供完整設施與高品質服務，提供創作者最佳支援，滿足你各種拍攝需求！

我要投稿人才招募關於我們廣告刊登/合作提案客服信箱服務條款隱私權政策著作權聲明免責聲明

東森新媒體控股股份有限公司版權所有，非經授權，不許轉載本網站內容
© ETtoday.net All Rights Reserved.
電話：+886-2-5555-6366

回到網頁頂端

我要投稿人才招募關於我們廣告刊登/合作提案客服信箱服務條款隱私權政策著作權聲明免責聲明

東森新媒體控股股份有限公司版權所有，非經授權，不許轉載本網站內容
© ETtoday.net All Rights Reserved.
電話：+886-2-5555-6366