轻量开源!微软基础模型LLaVA-Rad:自动生成高质量放射学报告 | 机器之心

Image 32: 机器之心

报道

人工智能数字化转型汽车科技Image 33: beta交叉前沿Image 34: beta

专栏心思Image 35: new学堂

年度榜单2023

年度榜单

年度榜单 2023年度榜单 2022年度榜单 2021年度榜单 2020年度榜单 2019年度榜单 2018年度榜单 2017

A100 系列

A100 数智中国A100 Data Intelligence

A100 Original

活动SOTA模型

数据库Image 36: iconPRO会员通讯

登录EN

Image 37Auto Byte

专注未来出行及智能汽车科技

Image 38微信扫一扫获取更多资讯

Image 39Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

Image 40微信扫一扫获取更多资讯

Image 41: ScienceAI

ScienceAI原创

2025/02/12 17:42

轻量开源!微软基础模型LLaVA-Rad:自动生成高质量放射学报告

Image 42: 图片

编辑丨coisini

多模态生成式人工智能的最新进展已将生物医学应用扩展到同时处理文本和图像,在视觉问答和放射学报告生成等任务中展现出潜力。然而,这些模型在临床实现中面临挑战,特别是大型模型在计算成本等方面带来了部署难题。小型多模态模型(SMM)虽然更高效,但与大型模型相比仍存在显著性能差距。此外,缺乏可访问的开源模型和可靠的事实正确性评估方法,特别是模型幻觉为临床采用设置了重大障碍。

来自微软研究院、华盛顿大学、斯坦福大学、南加州大学、加州大学戴维斯分校和加州大学旧金山分校的研究人员提出了一种新型小型多模态模型(SMM)——LLaVA-Rad,以及用于事实正确性自动评分的新指标 CheXprompt。

Image 43: 图片

论文地址:https://arxiv.org/pdf/2403.08002

LLaVA-Rad 专注于胸部 X 光(CXR)成像,旨在为医学影像检查自动生成高质量放射学报告。该模型在七个不同来源的数据集上进行了训练,共包含 697435 对放射学图像 - 报告,并在仅有结构化标签时利用 GPT-4 进行报告合成。

值得一提的是,LLaVA-Rad 仅需单个 V100 GPU 进行推理,并使用 8 个 A100 集群在一天内完成训练。

Image 44: 图片

LLaVA-Rad 的架构代表了一种小型多模态模型(SMM)的全新方法,尽管其规模显著小于 Med-PaLM M 等模型,但仍实现了卓越的性能。该模型的设计理念围绕将训练过程分解为不同的阶段:单模态预训练和轻量级跨模态学习。

LLaVA-Rad 的架构采用了一种高效的适配器机制,将非文本模态嵌入到文本嵌入空间中。训练过程分为三个阶段:预训练、对齐和微调。这种模块化方法实现了稳健的单模态模型开发和有效的跨模态适应。

Image 45: 图片

与类似规模的模型(如 LLaVA-Med、CheXagent 和 MAIRA-1,均为 70 亿参数)相比,LLaVA-Rad 表现出卓越的性能。并且,尽管规模显著较小,但 LLaVA-Rad 在关键指标上超越了 Med-PaLM M 模型,在放射学文本评估中,ROUGE-L 提高了 12.1%,F1-RadGraph 提高了 10.1%。

Image 46: 图片

LLaVA-Rad 在多个数据集(包括 CheXpert 和 Open-I)上均保持了优异性能,即使在测试未见过数据时也是如此。这归功于 LLaVA-Rad 的模块化设计和数据高效架构。LLaVA-Rad 的整体性能和计算效率使其在实际应用中极具实用性。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

理论微软研究院微软开源项目轻量化AI for Science

相关数据

视觉问答技术

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

来源:Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

来源:维基百科

推荐文章

Image 47: Matplotlib可视化最有价值的50个图表(附完整Python源代码)Matplotlib可视化最有价值的50个图表(附完整Python源代码)

Image 48: 数据派THU数据派THU44

Image 49: ICML 2019论文接收结果可视化:清华、北大、南大榜上有名ICML 2019论文接收结果可视化:清华、北大、南大榜上有名

Image 50: 机器之心机器之心

Image 51: UIUC陈德铭教授:「万能芯片」FPGA与深度学习UIUC陈德铭教授:「万能芯片」FPGA与深度学习

Image 52: 机器之心机器之心1

登录后评论

Image 53: 暂无评论

暂无评论~

返回顶部

Image 54

关于我们服务条款

全球人工智能信息服务

友情链接:Synced Global机器之心 Medium 博客PaperWeekly动脉网艾耕科技

Image 55: 机器之心微信公众平台

©2025 机器之心(北京)科技有限公司     京ICP备2021005318号-1

Image 56

Image 57识别二维码,立即订阅智能战疫日报

众智成城,共克时艰

加入「智能战疫联合行动」

您/贵司在疫情中面临哪些困难与诉求

您/贵司在疫情中可为其他企业提供哪类帮助

您/贵司有哪些抗疫动作或故事希望与大家分享

您/贵司希望如何参与抗疫行动

前往填写