記者吳立言/綜合報導

▲▼OpenAI。(圖/路透)
當生成式AI邁向更深層次的應用場景,「懂得搜尋、會查證」已成為智慧代理的關鍵能力。OpenAI最新開源的基準測試資料集,不僅揭露了當今主流模型在處理開放性資訊任務時的侷限,也為下一代 AI 系統訂立了更貼近現實世界的能力檢驗門檻。
We’re open-sourcing BrowseComp (“Browsing Competition”), a new, challenging benchmark designed to test how well AI agents can browse the internet to find hard-to-locate information.
— OpenAI (@OpenAI) April 10, 2025
It’s like an online scavenger hunt…but for browsing agents. https://t.co/tCpbJ5PuPB
OpenAI今(11日)日開源全新基準測試資料集「BrowseComp」,針對 AI 代理在真實網路環境中搜尋、整合與驗證資訊的能力進行全面評估。這項工具的推出,不僅為AI系統的實用性測試建立標竿,也揭示目前主流大型語言模型在複雜任務處理上的明顯短板。
BrowseComp(全名Browsing Competition)包含1,266道高難度題目,涵蓋電影、體育、地理、藝術、科技、歷史等多個主題,設計原則是「難以搜尋但容易驗證」,也就是說,這些問題不僅需要AI懂得該找什麼,更要有能力評估資訊的正確性與相關性。測試結果顯示,即便是GPT-4和GPT-4.5這類尖端模型,在無網路瀏覽能力下的正確率分別僅為0.6%和0.9%,即使加入瀏覽器功能,GPT-4o的正確率也僅達1.9%。與之相比,OpenAI最新的Deep Research代理模型則取得高達51.5%的準確率,展現了AI代理在搜尋與知識驗證流程中的巨大潛力。
OpenAI表示,BrowseComp的推出目的不僅是競技性測試,更是推動AI能力提升的參考框架。該資料集已於GitHub開源,讓全球開發者得以共同參與模型訓練與改進,也為日後在新聞、教育、法律、研究等需高資訊可靠性的領域應用,奠定了可信基礎。隨著AI從單一任務工具逐步演化為具備自主行動與判斷能力的「智慧代理」,BrowseComp或許有望成為評估這類系統真實表現與可用性的重要指標。
