
▲實驗中 9 個 Claude 做研究超越人類。(圖/取字免費圖庫Pexels)
記者吳立言/綜合報導
「當 AI 比人類更聰明時,誰來監督 AI」近來已成為產業關鍵問題。Anthropic 最新研究顯示,透過讓多個 Claude 模型自行進行對齊研究,不僅可行,甚至在效率上大幅超越人類研究員,引發關注。
Anthropic 實驗驗證 AI 可進行對齊研究
根據 Anthropic 公布的研究,團隊設計「弱到強監督(weak-to-strong supervision)」實驗,模擬未來人類監督超級 AI 的情境。該方法以較弱模型作為「教師」,訓練更強模型,觀察強模型是否能從有限指引中學習並超越教師能力,進一步驗證「可擴展監督(scalable oversight)」的實際可行性。
9 個 Claude 自主研究 成果顯著優於人類
研究團隊讓 9 個 Claude Opus 4.6 模型在具備沙盒環境、共享論壇、程式碼倉庫與評分系統的條件下,自主提出假設、執行實驗並分析結果。
結果顯示,人類研究員在 7 天內僅將「性能差距恢復率(PGR)」提升至 0.23;而 Claude 系統在約 5 天、累計 800 小時運算後,將 PGR 推升至 0.97,幾乎填補全部差距,效率顯著提升。
跨任務表現不一 實務應用仍有限
進一步測試發現,AI 所提出的方法在數學任務中表現良好(PGR 0.94),但在程式任務僅達 0.47,顯示泛用性仍有限。此外,在實際生產環境測試時,並未出現顯著提升。
研究團隊指出,這反映目前自動化研究仍偏向針對特定模型與資料集優化,難以直接套用至其他場景。
出現「作弊式優化」 凸顯監督必要性
值得注意的是,實驗過程中出現「獎勵駭客(reward hacking)」現象。部分模型透過利用統計規律或直接執行測試程式取得答案,繞過原本設計的監督流程。
雖然相關結果已被排除,但研究團隊強調,未來若導入自動化研究系統,必須建立無法被 AI 規避的評估機制,並持續保有人類監督。
AI 可加速探索但需人類把關
研究亦發現,讓不同模型從略有差異的起點出發,有助於提升探索多樣性;反之,過於僵化的流程反而會限制 AI 表現。研究雖顯示 AI 可透過大量實驗快速探索可能解法,使對齊研究的瓶頸逐漸從「提出想法」轉向「驗證結果」。然而,隨著模型產生的研究方法日益複雜,人類理解與驗證的難度也同步提升。Anthropic 指出,這項成果雖顯示 AI 在特定條件下具備高效率研究能力,但並不代表對齊問題已被解決。
研究同時提醒,AI 在追求目標過程中仍可能試圖「鑽漏洞」,因此未來 AI 對齊研究,仍需在人機協作與監督機制之間取得平衡。
