轻量开源！微软基础模型LLaVA-Rad：自动生成高质量放射学报告 | 机器之心

报道

人工智能数字化转型汽车科技交叉前沿

专栏心思 Image 35: new 学堂

年度榜单2023

年度榜单

年度榜单 2023 年度榜单 2022 年度榜单 2021 年度榜单 2020 年度榜单 2019 年度榜单 2018 年度榜单 2017

A100 系列

A100 数智中国A100 Data Intelligence

A100 Original

活动 SOTA模型

数据库 PRO会员通讯

Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

ScienceAI原创

2025/02/12 17:42

轻量开源！微软基础模型LLaVA-Rad：自动生成高质量放射学报告

Image 42: 图片

编辑丨coisini

多模态生成式人工智能的最新进展已将生物医学应用扩展到同时处理文本和图像，在视觉问答和放射学报告生成等任务中展现出潜力。然而，这些模型在临床实现中面临挑战，特别是大型模型在计算成本等方面带来了部署难题。小型多模态模型（SMM）虽然更高效，但与大型模型相比仍存在显著性能差距。此外，缺乏可访问的开源模型和可靠的事实正确性评估方法，特别是模型幻觉为临床采用设置了重大障碍。

来自微软研究院、华盛顿大学、斯坦福大学、南加州大学、加州大学戴维斯分校和加州大学旧金山分校的研究人员提出了一种新型小型多模态模型（SMM）——LLaVA-Rad，以及用于事实正确性自动评分的新指标 CheXprompt。

Image 43: 图片

论文地址：https://arxiv.org/pdf/2403.08002

LLaVA-Rad 专注于胸部 X 光（CXR）成像，旨在为医学影像检查自动生成高质量放射学报告。该模型在七个不同来源的数据集上进行了训练，共包含 697435 对放射学图像 - 报告，并在仅有结构化标签时利用 GPT-4 进行报告合成。

值得一提的是，LLaVA-Rad 仅需单个 V100 GPU 进行推理，并使用 8 个 A100 集群在一天内完成训练。

Image 44: 图片

LLaVA-Rad 的架构代表了一种小型多模态模型（SMM）的全新方法，尽管其规模显著小于 Med-PaLM M 等模型，但仍实现了卓越的性能。该模型的设计理念围绕将训练过程分解为不同的阶段：单模态预训练和轻量级跨模态学习。

LLaVA-Rad 的架构采用了一种高效的适配器机制，将非文本模态嵌入到文本嵌入空间中。训练过程分为三个阶段：预训练、对齐和微调。这种模块化方法实现了稳健的单模态模型开发和有效的跨模态适应。

Image 45: 图片

与类似规模的模型（如 LLaVA-Med、CheXagent 和 MAIRA-1，均为 70 亿参数）相比，LLaVA-Rad 表现出卓越的性能。并且，尽管规模显著较小，但 LLaVA-Rad 在关键指标上超越了 Med-PaLM M 模型，在放射学文本评估中，ROUGE-L 提高了 12.1%，F1-RadGraph 提高了 10.1%。

Image 46: 图片

LLaVA-Rad 在多个数据集（包括 CheXpert 和 Open-I）上均保持了优异性能，即使在测试未见过数据时也是如此。这归功于 LLaVA-Rad 的模块化设计和数据高效架构。LLaVA-Rad 的整体性能和计算效率使其在实际应用中极具实用性。

感兴趣的读者可以阅读论文原文，了解更多研究内容。

理论微软研究院微软开源项目轻量化AI for Science

轻量开源！微软基础模型LLaVA-Rad：自动生成高质量放射学报告

AI News

轻量开源！微软基础模型LLaVA-Rad：自动生成高质量放射学报告 | 机器之心

轻量开源！微软基础模型LLaVA-Rad：自动生成高质量放射学报告