切换到宽版
  • 75阅读
  • 2回复

[智能应用]Nature:AI击败人类医学专家?哈佛团队:这一领域仍需解决4大难题  [5P] [复制链接]

上一主题 下一主题
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君
 

发帖
125075
金币
88880
道行
20019
原创
753
奖券
34
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 13172(小时)
注册时间: 2012-06-21
最后登录: 2025-03-31
— 本帖被 兵马大元帅 执行加亮操作(2025-03-31) —

在医学研究和临床治疗中,准确解读医学图像并生成有洞察力的报告对病人的护理是必不可少的,但却给人类临床专家带来了沉重的负担。
人工智能(AI),特别是多模态生成式医学图像解释(GenMI)领域的快速发展,为自动化这一复杂过程的部分工作创造了机会。尽管 GenMI 有望在生成跨学科报告方面达到人类专家水平,但仍在准确性、透明度等方面面临障碍
厘清这些障碍并提出针对性解决方案,对于帮助临床医生改善护理质量、加强医学教育、减少工作量、扩大专业准入并提供实时专业知识至关重要。
今天,来自哈佛医学院的研究团队在权威科学期刊 Nature 上发文,全面综述了开发从图像中生成医学报告的 AI 系统方面的进展和挑战

论文链接:
https://www.nature.com/articles/s41586-024-07618-3
除了分析医疗报告生成的新模型的优势和应用之外,他们倡导一种新的范式,以授权临床医生及其患者的方式部署 GenMI。
在临床中发挥 GenMI 的优势
现有的大多数 AI 解决方案都侧重于自动完成医学影像中的单一任务,没有考虑到放射学和临床成像中涉及的更全面的综合分析。
因此,AI 有很大潜力在医学成像和报告方面实现更广泛的用途,例如快速撰写出涉及多科室的权威报告,摄取多种模式和临床数据,生成更加准确、流畅和可解释的报告等。

图|自动生成医疗报告的应用
目前,医疗报告生成框架主要由视觉编码器和语言解码器组成。其中,编码器将图像中的视觉信息提取为向量表示,而解码器接收一个向量并产生特定的输出。
近年来,科研人员在编码器-解码器方法的基础上不断创新,从而更好地编码图像数据、考虑外部知识、筛选异常等。包括大语言模型(LLM)在内的大型预训练通用 AI 系统,通过推动开发新的 GenMI 解决方案,彻底改变了医学图像解释。
这些 GenMI 方法可以产生更准确的医疗报告,以及使用相同的基础模型执行其他几个下游任务并处理多模态数据。
这些算法大多建立在视觉语言模型(VLM)的基础上,VLM 将单个视觉和语言模型融合到一个统一的框架中,可以对图像和文本输入进行联合编码。

图|GenMI 的能力
利用 GenMI 协助临床医生和患者,在临床环境中充分发挥它们的优势,可以通过两个范例来理解。
第一个是部署 AI 住院实习医师。AI 住院实习医师首先会专门起草临床上准确的报告,作为住院实习医师或医生撰写报告的起点。在开发过程中,可以在临床环境中对模型进行前瞻性测试。然后,AI 住院实习医师可以在主治医师的监督下进行微调或校准,并从所需的修正和补充中学习。

图|部署 AI 住院实习医师
第二个是符合人类偏好。基于人类反馈的强化学习(RLHF)和直接偏好优化(DPO)是应用于此类任务的两种技术。
对话式医疗报告生成模型,使临床医生可以根据需要提供反馈和后续问题,还可以与临床医生合作,通过生成式 AI 改变输入图像的属性,观察模型预测中的相关差异,并将这些差异与临床医生识别出的突出特征进行比较,从而对 AI 成像工具进行审核,还可以对为患者生成的报告进行调整,使其更直白,包含更少的医学术语,更多围绕患者病情。
总的来说,临床医生可以通过 3 种途径与 AI 系统协作



  • 利用 AI 模型的诊断能力,获得诊断错误的反馈。模型可以结合多模态输出,其中的解释加上在原始图像上的边界框,可以突出图像中以前可能被忽略的相关区域;


  • 模型快速解析图像和报告的能力,有助于临床医生快速搜索类似病例和图像;


  • 模型可以协助临床医生决策,其提出的探究性问题可以让临床医生深入了解与特定病症相关的诊断模式。

仍需克服 4 大挑战
然而,研究团队表示,要想发挥 GenMI 等 AI 系统的优势,还需要解决基准、人类过度依赖、数据集和模型偏差以及新模型、新科室等挑战。
首先,是基准和评估指标。在安全实施医学报告生成模型,AI 住院实习医师将在住院治疗中发挥更重要的作用之前,必须开展评估下游临床效果的研究,明确衡量标准。
流行的 LLM 的性能会随着时间的推移而发生显著变化,这种差异可能会造成严重后果。例如,疾病预测模型可能会被操纵以输出特定的诊断和结果测量,从而导致处方过量、保险欺诈和伪造临床试验。
因此,在将 LLM 作为人工智能住院实习医师的一部分进行部署时,必须确保采取一致的安全措施和监管。
其次,是临床医生和患者的过度依赖。临床医生可能出于对错误问责的模糊性、确认偏差和自动化偏差,过于依赖机器自动化指导等各种原因,不愿意更改 AI 生成报告中的文字,忽略模型无法识别的罕见发现。
虽然 AI 住院实习医师可以让患者直接与真正的临床专家进行交流,但这些交流应该在可控的情况下进行,这样患者就不会依赖 AI 住院实习医师来指导他们的医疗护理。同时,临床医生应向患者传授正确的查询方法,并让他们了解 AI 工具,以便自己进行探索。在部署 AI 住院实习医师的整个过程中,必须承认 AI 系统的局限性,尤其是在直接护理等只有人类才能处理和提供的更广泛的语境、同理心和认知的领域。
然后,是有偏差的数据集和模型。深度学习模型,尤其是 LLM,很容易受到训练数据固有偏差的影响。在 AI 住院实习医师的范例中,这种缺陷尤其容易造成问题,因为模型不仅会在生成的报告中,还会在医学教育和临床医生理解等方面延续这种偏差。
此外,人类的主观反馈是改进 AI 住院医师的关键因素,而这本身就可能造成有偏见的反馈循环。训练数据的质量、规模和平衡也是决定模型偏差的重要因素,因此亟需更广泛、更具代表性的数据集。
目前,大多数进展都是由 MIMIC-CXR 等数据集推动的,这些数据集仅限于单模态胸部 X 光扫描,其他数据集也不平衡,除了配对图像和相关报告普遍不足外,与正常扫描相比,异常扫描要少得多,并且往往会捕捉到更常见的疾病,而罕见的疾病则很少出现。异常也通常只局限于图像的一小部分,因此模型很难对其进行筛选。
最后,是新的模式和新的科室。目前,将 GenMI 应用于三维成像(包括 MRI 和 CT 扫描)的工作十分有限。部分原因是这一领域缺乏大型标注数据集,只有少数未发布、稀少或难以获取的数据集。
除了三维放射图像,GenMI 还以有限的方式应用于其他科室。眼科和皮肤科的报告生成在一定程度上取得了成功,在其考虑中纳入了外部知识和疾病分类等标准技术。尽管纳入新科室和图像类型将扩展 AI 工具的能力,但获取大规模多模态数据集的成本非常高昂,资源充足的公司或有能力收集或授权使用这些专有数据集。
自动生成医疗报告在减轻临床负担、扩大专家级临床医疗服务覆盖面方面有广阔前景。GenMI 可以生成更高质量的报告,通过提供交互式临床专业知识授权临床医生和患者,并通过扩展教育功能改善未来的临床护理。
研究团队表示,在不同模式和科室的临床环境中,制定衡量其效果的公开基准、进行持续的临床合作和谨慎的模型验证至关重要,这有助于学术界更透明地衡量报告生成的进展,并为临床监管机构未来的工作提供指导,使其安全有效。
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
我有我可以
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
125075
金币
88880
道行
20019
原创
753
奖券
34
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 13172(小时)
注册时间: 2012-06-21
最后登录: 2025-03-31
只看该作者 沙发  发表于: 03-28
哈佛医学院团队在《自然》期刊上发表的综述指出,尽管AI在**多模态生成式医学图像解释(GenMI)**领域取得了显著进展,甚至在某些任务中表现优于人类专家,但其临床落地仍需解决以下四大核心挑战:

一、基准与评估指标的缺失
问题:现有评估体系缺乏对下游临床效果(如诊断准确率、患者预后改善)的衡量标准,且大语言模型(LLM)的性能可能随时间波动,导致不可控风险(例如误诊或保险欺诈)。
解决方向:需建立统一的临床验证框架,结合人类专家审核机制,并加强模型部署后的持续监控与安全监管。
二、人类过度依赖风险
问题:患者可能过度信任AI生成的报告,忽略临床医生的综合判断;医生也可能因AI辅助而降低独立思考能力。
解决方向:需设计“可控交互场景”,例如限制AI直接提供诊疗建议,并要求临床医生对患者进行AI工具使用教育,明确告知其局限性(如无法处理复杂情感与伦理问题)。
三、数据与模型偏差隐患
问题:训练数据中潜在的种族、性别、地域偏差可能导致模型输出歧视性结论;医学图像数据集的模态单一性(如仅包含CT或X光)限制了模型泛化能力。
解决方向:开发多模态、多中心协作的医疗数据集,结合人类反馈强化学习(RLHF)优化模型公平性,并通过边界框标注、异常区域高亮等技术提升结果可解释性。
四、新模型与新科室的适应性挑战
问题:现有模型在罕见病、跨科室综合诊断(如结合放射科与病理科数据)中表现不足,且新兴模态(如分子影像)缺乏适配算法。
解决方向:推动跨学科合作开发通用型视觉语言模型(VLM),采用“AI住院医师”模式进行渐进式临床测试,并通过动态调整模型参数适应不同科室需求。
技术背景与潜在价值
当前主流GenMI框架基于视觉编码器+语言解码器结构,结合大语言模型(LLM)实现多任务处理(如生成报告、病例检索、辅助决策)13。其核心价值在于:

效率提升:快速生成跨科室综合报告,减少医生工作量;
精准诊断:通过多模态数据融合(影像、文本、实验室指标)提高异常识别率;
教育辅助:为医学生提供实时案例分析与诊断模式学习资源。
如何不发帖就快速得到金币道行
 
我有我可以
在线jjybzxw

UID: 551814


发帖
139325
金币
48873
道行
1974
原创
2361
奖券
2515
斑龄
32
道券
903
获奖
0
座驾
设备
摄影级
在线时间: 32821(小时)
注册时间: 2008-10-01
最后登录: 2025-03-31
只看该作者 板凳  发表于: 03-28
这段内容详细讨论了人工智能(AI)在医学图像解读和报告生成方面的应用及其面临的挑战。以下是对关键点的总结:

1. AI在医学图像解读中的应用:
   - AI,尤其是多模态生成式医学图像解释(GenMI),为自动化医学图像解读和报告生成提供了机会。
   - 尽管GenMI有望达到人类专家水平,但在准确性、透明度等方面仍面临挑战。

2. GenMI的优势:
   - AI可以快速撰写涉及多科室的权威报告,摄取多种模式和临床数据,生成更准确、流畅和可解释的报告。
   - 医疗报告生成框架主要由视觉编码器和语言解码器组成,编码器提取视觉信息为向量表示,解码器产生特定输出。

3. GenMI的创新:
   - 科研人员在编码器-解码器方法的基础上不断创新,以更好地编码图像数据、考虑外部知识、筛选异常等。
   - 这些算法大多建立在视觉语言模型(VLM)的基础上,VLM将视觉和语言模型融合到一个统一框架中。

4. GenMI在临床中的应用范例:
   - 部署AI住院实习医师:AI起草临床上准确的报告,作为住院实习医师或医生撰写报告的起点。
   - 符合人类偏好:基于人类反馈的强化学习(RLHF)和直接偏好优化(DPO)技术。

5. GenMI面临的挑战:
   - 基准和评估指标:需要开展评估下游临床效果的研究,明确衡量标准。
   - 人类过度依赖:临床医生可能过于依赖AI生成的报告,忽略模型无法识别的罕见发现。
   - 数据集和模型偏差:深度学习模型容易受到训练数据固有偏差的影响。
   - 新的模式和新的科室:将GenMI应用于三维成像(如MRI和CT扫描)的工作十分有限。

6. GenMI的前景:
   - GenMI可以减轻临床负担、扩大专家级临床医疗服务覆盖面。
   - 制定衡量其效果的公开基准、进行持续的临床合作和谨慎的模型验证至关重要。

总之,虽然GenMI在医学图像解读和报告生成方面具有巨大潜力,但仍需克服基准、人类过度依赖、数据集和模型偏差以及新模型、新科室等挑战。通过持续的创新和合作,有望实现GenMI在临床环境中的安全有效应用,改善护理质量并扩大专业准入。
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个