Google開源AI醫療影像工具　強化CT、MRI與臨床口述判讀　

▲▼ MedGemma。（圖／Google）

記者吳立言／綜合報導

Google 旗下研究團隊今（14日）宣布，正式推出 MedGemma 1.5 醫療生成式 AI 模型更新，並同步公開全新醫療語音轉文字模型 MedASR。此次更新主打「更進階的醫療影像理解」與「專為醫療情境優化的語音辨識」，希望協助開發者打造下一代醫療 AI 應用。

Google 指出，全球醫療產業導入 AI 的速度已是整體產業的兩倍。為因應這股趨勢，團隊去年透過 Health AI Developer Foundations（HAI-DEF）計畫，開放釋出 MedGemma 系列模型，作為醫療 AI 開發的基礎工具。相關模型已在開源社群獲得數百萬次下載，並衍生出大量社群版本。

MedGemma 1.5：醫療影像能力大幅擴充

[廣告]請繼續往下閱讀...

MedGemma 1.5 4B 是本次更新重點，強化了多種醫療影像應用情境，包括：

高維度醫療影像：支援電腦斷層(CT)、核磁共振(MRI)與全切片病理影像

縱向影像分析：可比較多個時間點的胸部 X 光

解剖定位：標示胸腔 X 光中的解剖結構

醫療文件理解：自檢驗報告中擷取結構化資料

Google 內部測試顯示，相較於前一代，MedGemma 1.5 在電腦斷層與核磁共振疾病判讀準確度皆有明顯提升，部分病理影像指標更大幅超越舊版表現。官方也強調，4B 參數版本在運算需求與效能間取得平衡，甚至可於離線環境執行；而 27B 版本則持續提供給需要高階文字推理的應用。

MedASR 登場：為醫療場域打造的語音轉文字模型

除了影像模型，Google 也同步推出 MedASR，這是一款專為醫療用語、臨床口述與醫師聽寫所微調的開源語音辨識模型。

官方比較指出，在胸腔 X 光口述情境中，MedASR 的錯誤率明顯低於通用語音模型；在涵蓋多科別的醫療聽寫測試中，辨識錯誤率更大幅下降。MedASR 可直接搭配 MedGemma，將語音轉為提示詞，再進行後續醫療推理與分析。

開源釋出＋競賽推動應用落地