AI開始研究AI?Claude自主做對齊研究 效率超越人類4倍

▲▼機器人,人工智慧,AI。(圖/取字免費圖庫Pexels)

▲實驗中 9 個 Claude 做研究超越人類。(圖/取字免費圖庫Pexels)

記者吳立言/綜合報導

「當 AI 比人類更聰明時,誰來監督 AI」近來已成為產業關鍵問題。Anthropic 最新研究顯示,透過讓多個 Claude 模型自行進行對齊研究,不僅可行,甚至在效率上大幅超越人類研究員,引發關注。

Anthropic 實驗驗證 AI 可進行對齊研究

[廣告]請繼續往下閱讀...

根據 Anthropic 公布的研究,團隊設計「弱到強監督(weak-to-strong supervision)」實驗,模擬未來人類監督超級 AI 的情境。該方法以較弱模型作為「教師」,訓練更強模型,觀察強模型是否能從有限指引中學習並超越教師能力,進一步驗證「可擴展監督(scalable oversight)」的實際可行性。

9 個 Claude 自主研究 成果顯著優於人類

研究團隊讓 9 個 Claude Opus 4.6 模型在具備沙盒環境、共享論壇、程式碼倉庫與評分系統的條件下,自主提出假設、執行實驗並分析結果。

結果顯示,人類研究員在 7 天內僅將「性能差距恢復率(PGR)」提升至 0.23;而 Claude 系統在約 5 天、累計 800 小時運算後,將 PGR 推升至 0.97,幾乎填補全部差距,效率顯著提升。

跨任務表現不一 實務應用仍有限

進一步測試發現,AI 所提出的方法在數學任務中表現良好(PGR 0.94),但在程式任務僅達 0.47,顯示泛用性仍有限。此外,在實際生產環境測試時,並未出現顯著提升。

研究團隊指出,這反映目前自動化研究仍偏向針對特定模型與資料集優化,難以直接套用至其他場景。

出現「作弊式優化」 凸顯監督必要性

值得注意的是,實驗過程中出現「獎勵駭客(reward hacking)」現象。部分模型透過利用統計規律或直接執行測試程式取得答案,繞過原本設計的監督流程。

雖然相關結果已被排除,但研究團隊強調,未來若導入自動化研究系統,必須建立無法被 AI 規避的評估機制,並持續保有人類監督。

AI 可加速探索但需人類把關

研究亦發現,讓不同模型從略有差異的起點出發,有助於提升探索多樣性;反之,過於僵化的流程反而會限制 AI 表現。研究雖顯示 AI 可透過大量實驗快速探索可能解法,使對齊研究的瓶頸逐漸從「提出想法」轉向「驗證結果」。然而,隨著模型產生的研究方法日益複雜,人類理解與驗證的難度也同步提升。Anthropic 指出,這項成果雖顯示 AI 在特定條件下具備高效率研究能力,但並不代表對齊問題已被解決。

研究同時提醒,AI 在追求目標過程中仍可能試圖「鑽漏洞」,因此未來 AI 對齊研究,仍需在人機協作與監督機制之間取得平衡。

分享給朋友:

追蹤我們:

※ 本文版權所有,非經授權,不得轉載。 [ ETtoday著作權聲明 ]

推薦閱讀

熱門影音更多>>

【質疑執法過當】重機騎士遇「持槍攔檢」警:符合比例原則

【質疑執法過當】重機騎士遇「持槍攔檢」警:符合比例原則

【最衰庇護島】慘遭第16撞...77歲BMW駕駛直接騎上去

【最衰庇護島】慘遭第16撞...77歲BMW駕駛直接騎上去

偉晉「缺席狼人殺」理由超誠實 被男球迷擦汗:把我當女的!

偉晉「缺席狼人殺」理由超誠實 被男球迷擦汗:把我當女的!

【會自動停車的狗狗肉】捷克狼犬聽主人指令秒去停好超聰明

【會自動停車的狗狗肉】捷克狼犬聽主人指令秒去停好超聰明

【請收下我的膝蓋】新北消防員「全副武裝」攻頂101 神猛畫面曝!網驚:太強大

【請收下我的膝蓋】新北消防員「全副武裝」攻頂101 神猛畫面曝!網驚:太強大

讀者迴響

ChatGPT是什麼?

ChatGPT是OpenAI推出的AI聊天機器人,可幫你寫作、翻譯、寫履歷甚至陪聊天。操作簡單,適合各年齡層使用。

最夯影音

更多

熱門快報

回到網頁頂端