ETtoday新聞雲

>

ETtoday AI科技

ETtoday新聞雲

>

ETtoday AI科技

2025年04月11日 11:19

OpenAI推出高難度基準測試BrowseComp　挑戰AI代理資訊整合能力

記者吳立言／綜合報導

▲▼OpenAI。（圖／路透）

▲▼OpenAI。（圖／路透）
當生成式AI邁向更深層次的應用場景，「懂得搜尋、會查證」已成為智慧代理的關鍵能力。OpenAI最新開源的基準測試資料集，不僅揭露了當今主流模型在處理開放性資訊任務時的侷限，也為下一代 AI 系統訂立了更貼近現實世界的能力檢驗門檻。

We’re open-sourcing BrowseComp (“Browsing Competition”), a new, challenging benchmark designed to test how well AI agents can browse the internet to find hard-to-locate information.

It’s like an online scavenger hunt…but for browsing agents. https://t.co/tCpbJ5PuPB
— OpenAI (@OpenAI) April 10, 2025

OpenAI今（11日）日開源全新基準測試資料集「BrowseComp」，針對 AI 代理在真實網路環境中搜尋、整合與驗證資訊的能力進行全面評估。這項工具的推出，不僅為AI系統的實用性測試建立標竿，也揭示目前主流大型語言模型在複雜任務處理上的明顯短板。
BrowseComp（全名Browsing Competition）包含1,266道高難度題目，涵蓋電影、體育、地理、藝術、科技、歷史等多個主題，設計原則是「難以搜尋但容易驗證」，也就是說，這些問題不僅需要AI懂得該找什麼，更要有能力評估資訊的正確性與相關性。測試結果顯示，即便是GPT-4和GPT-4.5這類尖端模型，在無網路瀏覽能力下的正確率分別僅為0.6%和0.9%，即使加入瀏覽器功能，GPT-4o的正確率也僅達1.9%。與之相比，OpenAI最新的Deep Research代理模型則取得高達51.5%的準確率，展現了AI代理在搜尋與知識驗證流程中的巨大潛力。

[廣告]請繼續往下閱讀...

OpenAI表示，BrowseComp的推出目的不僅是競技性測試，更是推動AI能力提升的參考框架。該資料集已於GitHub開源，讓全球開發者得以共同參與模型訓練與改進，也為日後在新聞、教育、法律、研究等需高資訊可靠性的領域應用，奠定了可信基礎。隨著AI從單一任務工具逐步演化為具備自主行動與判斷能力的「智慧代理」，BrowseComp或許有望成為評估這類系統真實表現與可用性的重要指標。

關鍵字: BrowseComp openAI ChatGPT 開源模型 ai代理

分享給朋友：

追蹤我們：

※ 本文版權所有，非經授權，不得轉載。 [ ETtoday著作權聲明 ]

留言

推薦閱讀

健康問題問AI是否可靠？研究發現YouTube竟成主要資訊來源

健康問題問AI是否可靠？研究發現YouTube竟成主要資訊來源

10小時前

OpenAI啟動新一代工具規劃　明晨舉行開發者座談會

OpenAI啟動新一代工具規劃　明晨舉行開發者座談會

12小時前

台灣首場「人機共舞」　舞蹈家指導台智寶人形機器人現學現跳

台灣首場「人機共舞」　舞蹈家指導台智寶人形機器人現學現跳

13小時前

新鮮人面對AI競爭　DeepMind執行長：精通工具可能比傳統實習更具優勢

新鮮人面對AI競爭　DeepMind執行長：精通工具可能比傳統實習更具優勢

15小時前

極端言論滲透AI回答？ChatGPT引用Grokipedia引發討論

極端言論滲透AI回答？ChatGPT引用Grokipedia引發討論

16小時前

ChatGPT、Gemini都翻車　AI影片辨識幾乎全失敗

ChatGPT、Gemini都翻車　AI影片辨識幾乎全失敗

18小時前

最快下月亮相！蘋果核心App傳全面AI化　Gemini將「深度整合」Siri

最快下月亮相！蘋果核心App傳全面AI化　Gemini將「深度整合」Siri

20小時前

半月內產出數百萬深偽內容　Grok遭點名助長不當內容擴散

半月內產出數百萬深偽內容　Grok遭點名助長不當內容擴散

1/25 07:10

Meta AI被爆會聊色！　青少年帳號緊急喊卡「擬開家長監控」

Meta AI被爆會聊色！　青少年帳號緊急喊卡「擬開家長監控」

1/25 07:03

Google Gemini攜手收容所　用AI為待領養動物打造棚拍形象照

Google Gemini攜手收容所　用AI為待領養動物打造棚拍形象照

1/25 07:00

【神預判爸爸】孩子還沒跌　他就出手丟枕頭！

【神預判爸爸】孩子還沒跌　他就出手丟枕頭！

熱門影音更多>>

【霍諾德小花絮】在75樓高還能對鏡頭搞笑做鬼臉的那個男人

【霍諾德小花絮】在75樓高還能對鏡頭搞笑做鬼臉的那個男人

曾莞婷抽中Lulu捧花　驚慌喊：可以不要嗎！

曾莞婷抽中Lulu捧花　驚慌喊：可以不要嗎！

【比人類還懂享受】8歲守宮套游泳圈泡溫水　chill到快睡著

【比人類還懂享受】8歲守宮套游泳圈泡溫水　chill到快睡著

【機場巧遇Alex】霍諾德超親民回應與粉絲親切比讚！

【機場巧遇Alex】霍諾德超親民回應與粉絲親切比讚！

守護台灣海岸線！吳汶芳探訪桃園蘆竹防風林見證中華電信植樹成果

守護台灣海岸線！吳汶芳探訪桃園蘆竹防風林見證中華電信植樹成果

AI新知熱門新聞

ChatGPT、Gemini都翻車　AI影片辨識幾乎全失敗

健康問題問AI是否可靠？研究發現YouTube竟成主要資訊來源

最快下月亮相！蘋果核心App傳全面AI化　Gemini將「深度整合」Siri

OpenAI啟動新一代工具規劃　明晨舉行開發者座談會

台灣首場「人機共舞」　舞蹈家指導台智寶人形機器人現學現跳

新鮮人面對AI競爭　DeepMind執行長：精通工具可能比傳統實習更具優勢

Grok Imagine新功能亮相　正式支援10秒AI影片生成

ChatGPT開始放廣告　DeepMind CEO直言：我其實有點意外

不用再自己做梗圖了！Google相簿推「我的表情包」　一鍵把照片變成表情圖

Grok修圖一鍵脫衣改「付費限定」　馬斯克限縮X生成功能

讀者迴響

我也要留言，快前往新聞雲App！

Gemini和ChatGPT有什麼不同？

Gemini是Google開發的AI，擅長整合Gmail、Docs、YouTube等服務，適合重度Google用戶；而ChatGPT則由OpenAI開發，操作簡單、回應速度快，是多數人入門AI的首選。

科技術語了解更多

熱門AI新知更多新聞

熱門3C家電更多新聞

最夯影音

更多

守護台灣海岸線！吳汶芳探訪桃園蘆竹防風林見證中華電信植樹成果

守護台灣海岸線！吳汶芳探訪桃園蘆竹防風林見證中華電信植樹成果

Lulu誓詞淚崩喊話：最怕沒有你　陳漢典告白「想和妳生活一輩子」

Lulu誓詞淚崩喊話：最怕沒有你　陳漢典告白「想和妳生活一輩子」

金宣虎收到台灣禮物「有準備」！　弄壞四葉草...被高允貞念20分鐘

金宣虎收到台灣禮物「有準備」！　弄壞四葉草...被高允貞念20分鐘

霍諾德爬101為何沒在怕？　醫師揭密：他的「杏仁核」跟凡人不一樣

霍諾德爬101為何沒在怕？　醫師揭密：他的「杏仁核」跟凡人不一樣

Lulu誓詞淚崩喊話：最怕沒有你　陳漢典告白「想和妳生活一輩子」

Lulu誓詞淚崩喊話：最怕沒有你　陳漢典告白「想和妳生活一輩子」

熱門快報

看新聞抽高雄櫻花季門票！

看新聞抽高雄櫻花季門票！

韓團陣容太狂啦！即日起至3/1止，下載新聞雲APP，天天看新聞，高雄櫻花季門票等你抽

東森廣場投籃趣，揪團來打球

東森廣場投籃趣，揪團來打球

假日怎麼安排？來東森廣場免費吹冷氣投籃，輕鬆運動一下！

ETtoday 會員限定爆夾抓抓樂

ETtoday 會員限定爆夾抓抓樂

超好夾零門檻，新手也能一夾入魂！東森廣場抓抓樂，等你來挑戰！

買房不踩雷！購屋決策不盲目！房產大神實力帶飛

買房不踩雷！購屋決策不盲目！房產大神實力帶飛

賞屋攻略Get！別再自己摸索耗時找房，專家親自帶領您直擊潛力優質建案，購屋選擇，就從最給力的賞屋體驗開始。

乖乖X農會特殊口味大開箱

乖乖X農會特殊口味大開箱

「文里補習班」開課啦！今天就來開箱「農會X乖乖」，試試各種創新口味乖乖

ETtoday攝影棚租借

ETtoday攝影棚租借

ETtoday攝影棚提供完整設施與高品質服務，提供創作者最佳支援，滿足你各種拍攝需求！

我要投稿人才招募關於我們廣告刊登/合作提案客服信箱服務條款隱私權政策著作權聲明免責聲明

東森新媒體控股股份有限公司版權所有，非經授權，不許轉載本網站內容
© ETtoday.net All Rights Reserved.
電話：+886-2-5555-6366

回到網頁頂端

我要投稿人才招募關於我們廣告刊登/合作提案客服信箱服務條款隱私權政策著作權聲明免責聲明

東森新媒體控股股份有限公司版權所有，非經授權，不許轉載本網站內容
© ETtoday.net All Rights Reserved.
電話：+886-2-5555-6366