#谷歌研究发布新一代医疗AI模型:MedGemma 1.5与Med-ASR#
引言
在人工智能(AI)迅速渗透医疗保健领域的背景下,谷歌研究团队近日发布了MedGemma系列开源医疗生成AI模型的最新版本——MedGemma 1.5 4B,以及全新的医疗语音到文本模型Med-ASR。这些模型旨在为开发者提供起点,帮助构建先进的医疗AI应用。根据谷歌的Health AI Developer Foundations (HAI-DEF)程序,这些模型可在Google Cloud的Vertex AI上扩展使用。自MedGemma系列推出以来,已累计数百万次下载,并在Hugging Face平台上衍生出数百个社区变体,显示出其在医疗AI社区中的广泛影响力。该博客文章强调,医疗行业采用AI的速度是整体经济的两倍,这些新模型将进一步推动医疗图像解释和语音转录的创新。
MedGemma 1.5:多模态医疗图像解释的突破
MedGemma 1.5 4B是MedGemma系列的升级版,专注于多模态医疗成像支持,包括高维医疗图像(如CT扫描、MRI和组织病理学切片)、纵向医疗成像(如胸部X光的时间序列审查)、解剖结构定位(如胸部X光中的器官定位)以及医疗文档理解(如从实验室报告中提取结构化数据)。该模型保留了核心能力,如处理文本、医疗记录和2D图像,同时扩展到更复杂的3D体积表示。
关键特性与能力
- 多模态设计:反映医学数据的多样性,支持开发者输入多个图像切片或补丁,并附带任务提示。
- 高维成像支持:适用于CT、MRI的3D体积和组织病理学的全切片图像。
- 灵活适应:开发者可通过微调自身数据提升性能,与MedSigLIP图像编码器结合使用,支持完整DICOM格式部署。
性能基准
在内部基准测试中,MedGemma 1.5相比前代模型表现出显著提升:
- CT相关疾病分类准确率提升3%(61% vs. 58%)。
- MRI相关疾病分类准确率提升14%(65% vs. 51%)。
- 组织病理学滑片预测的ROUGE-L分数提升0.47(0.49 vs. 0.02),接近专用模型PolyPath的0.498。
- 胸部X光解剖定位的IoU(交并比)提升35%(38% vs. 3%)。
- 纵向胸部X光审查的宏准确率提升5%(66% vs. 61%)。
- 一般医疗图像解释准确率提升3%(62% vs. 59%)。
- 实验室报告提取的检索宏F1分数提升18%(78% vs. 60%)。
- MedQA准确率提升5%(69% vs. 64%),EHRQA提升22%(90% vs. 68%)。
研究方法与潜在应用
模型通过引入新训练数据集和优化技术实现改进。谷歌提供了教程笔记本,演示如何处理高维CT和组织病理学图像,并支持LoRA-based监督微调和强化学习调优。在实际应用中,MedGemma 1.5可用于医疗成像解释、疾病进展评估、解剖定位和报告数据提取。例如,马来西亚的Qmed Asia公司将MedGemma适应为askCPG对话界面,用于临床实践指南查询;台湾国家健康保险管理局则用于肺癌手术前评估的病理报告数据提取。这些应用展示了模型在提升医疗效率和准确性方面的潜力。
Med-ASR:医疗语音到文本的专属解决方案
Med-ASR是一个开源自动语音识别(ASR)模型,专为医疗听写场景微调,支持将医疗专业领域的语音转换为文本。它可与MedGemma系列配对,用于高级推理任务,如转录医疗对话或生成模型提示。
关键特性与能力
- 医疗词汇专精:熟悉医疗术语,确保转录准确性。
- 自然交互接口:作为语言模型的输入方式,支持医疗听写转录和提示生成。
性能基准
与Whisper large-v3模型相比,Med-ASR在医疗基准上表现出色:
- 胸部X光听写词错误率(WER)降低58%(5.2% vs. 12.5%)。
- 多样化医疗听写基准WER降低82%(5.2% vs. 28.2%)。
研究方法与潜在应用
模型通过针对医疗领域的微调实现优化,谷歌提供了教程笔记本,帮助开发者构建结合音频理解和临床推理的系统。在应用方面,Med-ASR可用于转录医疗听写、支持患者-提供者交互,以及生成MedGemma的自然语言提示,提升医疗对话的效率。
挑战与未来展望
尽管这些模型取得了显著进展,但谷歌强调其仍处于早期阶段,可能产生不准确输出,不适合直接临床使用。开发者需通过验证、适应和修改确保安全性和可靠性。基准性能不保证在实际医疗场景中的适用性,所有输出需独立验证临床相关性。
未来,谷歌计划持续改进MedGemma系列,并通过MedGemma Impact Challenge(Kaggle举办的黑客马拉松,总奖金10万美元)鼓励开发者探索创新应用。该挑战旨在激发医疗AI的创意使用,推动行业进步。
结语
MedGemma 1.5和Med-ASR的发布标志着谷歌在医疗AI领域的又一里程碑,为开发者提供了强大工具,以应对医疗图像和语音处理的复杂挑战。这些开源模型不仅提升了性能,还强调了社区协作的重要性。感兴趣的开发者可通过Hugging Face、Vertex AI或GitHub获取模型和教程,开始探索其潜力。
---------
报道日期: 2026年1月14日
来源: 谷歌研究博客(发布于2026年1月13日)
作者: Daniel Golden(工程经理)和Fereshteh Mahvar(软件工程师),谷歌研究团队
