OpenAI進攻醫療產業 推出HealthBench建立全球AI評估新標準

▲OpenAI。(圖/OpenAI)

▲OpenAI公布醫療AI評測新基準HealthBench,刷新模型表現指標。(圖/OpenAI)

記者吳立言/綜合報導

OpenAI今(13日)宣布推出HealthBench,一項全新開源評估基準,用以測量大型語言模型(LLMs)在醫療領域的效能與安全性。該基準由全球262位執業醫師共同設計,涵蓋5,000個多輪醫療對話、48,562個醫師撰寫的細緻評分標準,標誌著AI醫療能力評估邁入全新階段。

在OpenAI的內部測試中,GPT系列模型展現出穩健成長,從GPT-3.5 Turbo的 16%,到GPT-4o的32%,再到最新o3模型達60%的總體得分。而成本大幅降低的小型模型GPT-4.1 nano更令人驚艷,以僅約1/25成本超越GPT-4o,凸顯小模型在醫療應用上的潛力。

[廣告]請繼續往下閱讀...

OpenAI 表示,HealthBench 的設計基於三大核心理念:
• 有意義(Meaningful):評分標準聚焦真實世界的影響力,不僅是紙上考題,更涵蓋實際就診流程中的對話、推理與個別化需求。
• 可信賴(Trustworthy):由醫師親自撰寫的評分標準與加權系統,確保評估準則與臨床標準一致。
• 具進步空間(Unsaturated):現有頂尖模型仍有明顯提升空間,讓開發者能持續優化。

HealthBench 所涵蓋的對話涵蓋多語言、不同醫療專科、病患與醫師視角、難度高、極具挑戰性,並依七大主題分類,如急診處理、資訊不確定性處理、全球健康議題等。每個對話均以 醫師撰寫的客製化評分規則 進行評估,涵蓋「正確性」、「表達溝通」、「上下文理解」等多個維度。模型的回應會由GPT-4.1擔任自動評分員,逐項檢查是否符合每條標準,最後依得分占比生成總體評分。

OpenAI強調,改善人類健康將是AGI帶來最具決定性的改變之一。若能妥善設計與部署,大型語言模型將有潛力協助全球提升醫療知識可及性、支援臨床決策、強化民眾自我健康倡議能力。HealthBench的推出,正是通往這一未來願景的關鍵基礎建設。

分享給朋友:

追蹤我們:

※ 本文版權所有,非經授權,不得轉載。 [ ETtoday著作權聲明 ]

推薦閱讀

熱門影音更多>>

王祖賢首曝「當年引退真實原因」 曾得憂鬱症:不知道自己是誰

王祖賢首曝「當年引退真實原因」 曾得憂鬱症:不知道自己是誰

【這表情落差太大了】寶寶嬌羞笑容只給爸爸 一見媽媽直接皺眉處理XD

【這表情落差太大了】寶寶嬌羞笑容只給爸爸 一見媽媽直接皺眉處理XD

【想看雪的代價】為了上合歡山掛雪鏈 結果車框直接刮爛QQ

【想看雪的代價】為了上合歡山掛雪鏈 結果車框直接刮爛QQ

劉在錫長相醜or帥?觀相老師直接失言XD

劉在錫長相醜or帥?觀相老師直接失言XD

【這題太難了啦!】小弟弟被問選檸檬還是雅英 秒當機XD

【這題太難了啦!】小弟弟被問選檸檬還是雅英 秒當機XD

讀者迴響

我可以用AI畫卡通嗎?

可以!只要在提示詞中加入anime、cartoon、pixar等字樣,就會產生可愛卡通風格。

最夯影音

更多

熱門快報

回到網頁頂端