OpenAI推出高難度基準測試BrowseComp 挑戰AI代理資訊整合能力

記者吳立言/綜合報導

▲▼OpenAI。(圖/路透)

▲▼OpenAI。(圖/路透)
當生成式AI邁向更深層次的應用場景,「懂得搜尋、會查證」已成為智慧代理的關鍵能力。OpenAI最新開源的基準測試資料集,不僅揭露了當今主流模型在處理開放性資訊任務時的侷限,也為下一代 AI 系統訂立了更貼近現實世界的能力檢驗門檻。

OpenAI今(11日)日開源全新基準測試資料集「BrowseComp」,針對 AI 代理在真實網路環境中搜尋、整合與驗證資訊的能力進行全面評估。這項工具的推出,不僅為AI系統的實用性測試建立標竿,也揭示目前主流大型語言模型在複雜任務處理上的明顯短板。
BrowseComp(全名Browsing Competition)包含1,266道高難度題目,涵蓋電影、體育、地理、藝術、科技、歷史等多個主題,設計原則是「難以搜尋但容易驗證」,也就是說,這些問題不僅需要AI懂得該找什麼,更要有能力評估資訊的正確性與相關性。測試結果顯示,即便是GPT-4和GPT-4.5這類尖端模型,在無網路瀏覽能力下的正確率分別僅為0.6%和0.9%,即使加入瀏覽器功能,GPT-4o的正確率也僅達1.9%。與之相比,OpenAI最新的Deep Research代理模型則取得高達51.5%的準確率,展現了AI代理在搜尋與知識驗證流程中的巨大潛力。

[廣告]請繼續往下閱讀...

OpenAI表示,BrowseComp的推出目的不僅是競技性測試,更是推動AI能力提升的參考框架。該資料集已於GitHub開源,讓全球開發者得以共同參與模型訓練與改進,也為日後在新聞、教育、法律、研究等需高資訊可靠性的領域應用,奠定了可信基礎。隨著AI從單一任務工具逐步演化為具備自主行動與判斷能力的「智慧代理」,BrowseComp或許有望成為評估這類系統真實表現與可用性的重要指標。

分享給朋友:

追蹤我們:

※ 本文版權所有,非經授權,不得轉載。 [ ETtoday著作權聲明 ]

推薦閱讀

熱門影音更多>>

【霍諾德小花絮】在75樓高還能對鏡頭搞笑做鬼臉的那個男人

【霍諾德小花絮】在75樓高還能對鏡頭搞笑做鬼臉的那個男人

曾莞婷抽中Lulu捧花 驚慌喊:可以不要嗎!

曾莞婷抽中Lulu捧花 驚慌喊:可以不要嗎!

【比人類還懂享受】8歲守宮套游泳圈泡溫水 chill到快睡著

【比人類還懂享受】8歲守宮套游泳圈泡溫水 chill到快睡著

【機場巧遇Alex】霍諾德超親民回應與粉絲親切比讚!

【機場巧遇Alex】霍諾德超親民回應與粉絲親切比讚!

守護台灣海岸線!吳汶芳探訪桃園蘆竹防風林 見證中華電信植樹成果

守護台灣海岸線!吳汶芳探訪桃園蘆竹防風林 見證中華電信植樹成果

讀者迴響

Gemini和ChatGPT有什麼不同?

Gemini是Google開發的AI,擅長整合Gmail、Docs、YouTube等服務,適合重度Google用戶;而ChatGPT則由OpenAI開發,操作簡單、回應速度快,是多數人入門AI的首選。

最夯影音

更多

熱門快報

回到網頁頂端