
▲ChatGPT橫空出世後,如何避免AI犯錯是重要的研究方向。(圖/路透)
專題中心/台北報導
「AI會不會失控?」這個問題,近來在國外社群被換了一種更務實的問法:它出事時,會像電影裡那種有計畫的反派,還是像工廠裡的意外事故?Anthropic近期發布的研究〈The Hot Mess of AI〉把討論帶到一個新角度,並在Hacker News引發熱烈回應。
研究提出一個核心觀察:隨著任務變難、推理鏈變長,前沿推理模型的失敗越來越像「熱亂」(hot mess),也就是行為變得不一致、不可預測,而不是穩定地朝某個錯誤目標前進。作者用bias-variance分解,把失敗拆成「系統性偏誤」與「隨機性造成的變異」,並指出在多數情境下,長推理/長動作序列更容易讓失敗被變異主導。
在Hacker News網站的討論中,有人認為這篇文章難得提供可操作方向,例如把大任務拆小、把修正回推到一開始的提示、或用多次嘗試做ensemble;也有人分享實務經驗,指出某些場景下「便宜模型」反而更乾脆,失敗得早、修得快,高推理模型則更容易在長任務中反覆嘗試、越走越亂。
這類社群反應透露一件事:當AI開始處理長鏈條工作,風險不一定是它很壞,而是它很亂。對企業與產品而言,對策可能也跟過去不一樣,除了加強對齊與政策,還要把工程上的「可恢復性」做進系統:可中止、可回滾、可驗證、可重跑。當失敗更像工安事件,AI安全就不只是道德與治理問題,也是一門系統工程。
