视觉检测领先者
全国咨询热线:13812953225
产品中心
当前位置:首页 > 产品中心 > 视觉软件

CVPR 2024|FairCLIP:首个多模态医疗视觉语言大模型公平性研究

发布时间:2024-04-23 10:52:36   来源:下载雷火电竞亚洲先驱

公平性在深度学习中是一个核心问题,尤其是在医疗领域,这些模型影响着诊断和治疗决策。尽管在仅限视觉...

产品介绍

  公平性在深度学习中是一个核心问题,尤其是在医疗领域,这些模型影响着诊断和治疗决策。尽管在仅限视觉领域已对公平性进行了研究,但由于缺乏用于研究公平性的医疗视觉-语言(VL)数据集,医疗VL模型的公平性仍未被探索。

  为了弥补这一研究空白,我们介绍了第一个公平的视觉-语言医疗数据集(FairVLMed),它提供了详细的人口统计属性、真实标签和临床笔记,以便深入检查VL基础模型中的公平性。

  使用FairVLMed,我们对两个普遍的使用的VL模型(CLIP和BLIP2)进行了全面的公平性分析,这些模型在自然图片和医疗图片领域都有预训练,涵盖了四个不同的受保护属性信息。

  我们的结果突出显示了所有VL模型中的显著偏见,亚洲人、男性、非西班牙裔和西班牙语者分别是种族、性别、族裔和语言这些受保护属性中的首选组别。为了减轻这些偏见,我们提出了FairCLIP,一种基于optimal-transport的方法,通过减少整体样本分布与每个人口统计组之间的Sinkhorn距离,实现了性能和公平性之间的有利折衷。

  作为首个研究公平性的VL数据集,FairVLMed对研究模型公平性实现既具有伦理意识又在临床上有效的机器学习模型的潜力。

  在本次工作中, 我们提出了开创性的关于多模态视觉语言大模型的公平性的研究, 针对这项研究我们收集了第一个带有公平性族裔指标的视觉语言医疗大型数据集, 并且提出了针对视觉语言预训练的方法FairCLIP来尝试提升不同组别的公平性 (让不同组别的准确率接近)。

  近年来,公平性在深度学习领域受到了慢慢的变多的关注。这一点尤其重要,特别是在医疗领域,这些深度学习模型影响着诊断和治疗决策。这些模型中与种族、性别或社会经济地位等因素相关的偏见可能会引起医疗服务差距和不利的患者结果。

  因此,确保这些模型无偏见不仅是道德和法律要求,也是确保患者安全和医疗公平的必要条件。这使得在医疗计算机视觉领域中的公平性成为一个关键且迫切的问题,对于提供公平的医疗服务至关重要。

  先前的研究已经发现了基于深度学习的医学图像模型中的偏见,大多分布在在胸部X光诊断上。与这些仅限视觉的模型不同,近期视觉-语言(VL)基础模型的兴起设定了跨越广泛任务领域的新基准。然而,尽管这些VL模型表现出色,它们的公平性仍然不明确。

  鉴于仅限视觉的模型存在偏见,以及临床医学报告的人工编写特性,VL模型可能会进一步加剧公平性问题。因此,随着深度学习领域向多模态基础模型的转移,审视视觉和文本的相互作用怎么样影响算法结果的公平性慢慢的变关键。然而,进行此类调查的当前环境受限于缺乏包含全面人口统计信息的VL数据集,现有的公共VL数据集主要关注胸部X光。

  先前的研究已经突出显示,使用这一些数据集研究公平性面临挑战,因为它们的真实标签是从放射学报告中自动提取的,可能由于标签噪声导致不准确的公平性结论。此外,由于这一些数据集主要不是为了公平性设计的,它们只提供少数人口统计特征,限制了进行跨多重维度的全面公平性研究的潜力。更进一步,放射学报告主要关注对成像数据的直接观察,很少包含额外的特定于患者的信息,不代表大多数临床文本,因此限制了它们在医学VL模型公平性研究中的实用性。

  为了弥补这一研究差距,我们介绍了第一个用来研究公平性的视觉-语言医疗数据集(简称FairVLMed),它提供了详细的人口统计属性、真实标签和临床医学报告,以促进对VL基础模型内公平性的深入检查。

  FairVLMed包含了10,000名患者的记录,每个记录都与一张SLO视网膜图像和一份用于诊断青光眼的临床医学报告配对,同时包括如年龄、性别、种族、族裔、首选语言和婚姻状况等详细的受保护属性。

  与放射学报告不同,我们数据集中的临床医学报告提供了更为详细的信息,不仅包括图像描述,还包括药物、非影像测试结果和家族史等丰富的非影像临床信息。因此,这些临床医学报告更具代表性,更适合用于研究医学VL模型的公平性。

  青光眼影响着全球数百万人,它体现了公平诊断模型的需求。及时检验测试对于避免不可逆转的视力损失至关重要。然而,许多患者由于这种疾病的无症状性质和眼科护理的障碍而未被诊断。此外,未诊断的问题在少数族裔中尤为突出。例如,以往的研究表明,相比于白人群体,黑人社区的个体未诊断和未治疗的青光眼的可能性高4.4倍,这凸显了解决医疗差异的重要性。

  深度学习系统对于改善医疗保健具有重大潜力。然而,在这些深度学习系统临床实施之前,解决潜在的公平性问题是必要的,以确保公平的医疗服务提供。

  在这项工作中,个人会使用两种普遍的使用的VL方法(即CLIP和BLIP2)在FairVLMed上进行了广泛的公平性分析。我们的实验结果揭示了基于种族、性别、族裔和语言的各种群体之间有显著准确性差异。

  为了解决这些公平性问题,我们引入了一种基于optimal transport的方法,命名为FairCLIP。FairCLIP旨在通过优化Sinkhorn距离来增强公平性,从而使整体样本特征分布与每个人口统计组的特征分布对齐。

  我们介绍了第一个公平的视觉-语言医疗数据集(FairVLMed),它具有详细的人口统计属性、真实标签和临床医学报告,用于研究VL基础模型的公平性。

  使用FairVLMed,我们对两个普遍的使用的VL模型(即CLIP和BLIP2)进行了全面的公平性分析,这些模型在自然和医疗领域都进行了预训练,涉及四个不同的受保护属性。

  我们的结果突出显示了所有VL模型中的显著偏见,亚洲人、男性、非西班牙裔和西班牙语者分别是种族、性别、族裔和语言这些受保护属性中的首选亚组。

  我们提出了一种名为FairCLIP的基于optimal transport的方法,它在性能和公平性方面都显著优于CLIP。

  本研究中的数据来自2015至2022年间青光眼服务的受试者来自哈佛医学院的马萨诸塞眼耳医院。本研究将包含了三类数据:(1)扫描激光眼底摄影(SLO)眼底图像;(2)人口身份群体信息;以及(3)由眼科医生撰写的去标识化临床笔记,以提供青光眼诊断的总结。

  SLO眼底图像是评估青光眼等疾病引起的视网膜损伤的有价值标志。每张SLO眼底图像都与六个人口身份属性相关联,包括年龄、性别、种族、族裔、首选语言和婚姻状况。附带的临床笔记长度不一,这些笔记可能详细描述评估、治疗计划和诊断策略,并被认为与SLO眼底图像中的视觉语义相对应。

  图1展示了两个SLO眼底图像及临床笔记的示例。受试者被分为非青光眼(通过视野(VF)测试测量的视觉功能正常:VF平均偏差≥-1 dB且VF青光眼半视野测试和模式标准偏差(PSD)结果正常)和青光眼类别(通过VF测试测量的视觉功能异常:VF平均偏差-3 dB且VF青光眼半视野测试和PSD结果异常)。

  原始临床笔记可能包含受保护的敏感信息,如青光眼诊断日期、患者姓名、手机号、电子邮件地址、物理位置、机构等。我们通过以下三个步骤去标识这些敏感信息。

  首先,个人会使用Microsoft的Presidio工具对所有临床笔记进行匿名处理,将敏感信息替换为相应的占位符(例如,PERSON NAME, PHONE NUMBER, LOCATION),以便保持原始句子结构和连贯性。

  然后,个人会使用规则匹配并去标识Presidio未完全识别的受保护信息(例如,物理地址)。

  最后,去标识化的临床医学报告由四位医学专家进一步验证。特别是,每份临床笔记都由一位专家检查,必要时将敏感信息手动替换为相应的占位符。

  FairVLMed数据集包括来自10,000名受试者的10,000个样本。它被划分为7,000个训练样本、1,000个验证样本和2,000个测试样本。

  数据集的平均岁数为60.9 ± 16.2岁。数据集包括来自三个主要群体的样本:亚洲人,819个样本;黑人,1,491个样本;白人,7,690个样本。在性别方面,女性占受试者的56.3%,其余为男性。种族分布以90.6%的非西班牙裔、4.0%的西班牙裔和5.4%的未指定为特点。

  在首选语言方面,92.5%的受试者偏好英语,1.7%偏好西班牙语,0.8%偏好其他语言,5.0%未知。从婚姻状况角度看,57.4%已婚或有伴侣,26.4%单身,6.6%经历过离婚,1.0%法律分居,6.1%丧偶,2.5%未指定。去标识化后,临床笔记的词数从11到332词不等,平均词数为147词。

  如上图所示,我们提出的FairCLIP框架旨在预训练阶段提高公平性。这是通过最小化不一样的种族群体(或其他基于属性的群体)之间视觉和语言特征相关性M_{I,i}的概率分布之间的差异来实现的。

  其中 d 是一个距离函数 是计算上不可行的潜在分布。我们在方程中使用基于批次的分布,B_a表示批次中的样本来自群体 a。

  为了优化目标,一种直接的方式是最小化两个分布之间的Kullback–Leibler (KL) 散度。然而,KL散度不对称且不满足三角不等式,因此不是真正的距离度量。相反,我们遵循文献引用,最小化两个分布之间的Sinkhorn距离。Sinkhorn距离是一种概率度量和Wasserstein距离的变种。两个分布之间的Sinkhorn距离定义为:

  Sinkhorn损失将被添加到CLIP在预训练阶段使用的损失中,以优化CLIP的公平性。

  我们采用两种类型的评估策略——– linear probing and zero-shot transfer。对于linear probing,我们遵循官方的MAE实现,在CLIP和BLIP2的视觉特征上分别训练一个线性分类器。类似于MAE,在线性分类器前个人会使用了一个BatchNorm层,并采用了LARS优化器,基础学习率为0.1,权重衰减为0,批量大小为512。对于zero-shot transfer , 我们采用了和CLIP原文一致的做法。

  表2展示了linear probing的结果,检查了各种各样的性能(AUC)和公平性(DPD、DEOdds、ES-AUC)指标,以及在每个四个受保护属性内的个别子群体中报告了群组AUC得分。我们主要关注随后分析中的ES-AUC指标,因为它捕捉到了整体性能以及公平性的概念——这两者对于安全关键的医疗应用都很重要。表2展示了各种受保护属性中VL性能的差异,以及不同VL预训练领域(自然图像 vs. 医疗图像)和VL预训练方法(CLIP vs. BLIP2)对模型性能和公平性的影响。

  表3比较了CLIP与FairCLIP在两种不同架构(ViTB/16和ViT-L/14)以及四种不同受保护属性上的zero-shot transfer的准确性。CLIP和FairCLIP都是通过不带监督信息(即标签)的图像和临床笔记对进行微调的。然后,得到的模型在分类任务中做评估。CLIP在种族、性别、族裔和语言等属性的群组AUC中表现出显著差异,表明在青光眼检测中存在偏见。总体而言,FairCLIP在公平性指标(DPD、DEOdds)以及各种人口子群的ES-AUC和AUC分数方面,都显著优于CLIP。

  表5显示了更多的端到端微调结果,进一步验证了FairCLIP的有效性。这些实证发现表明,优化整体样本分布与特定子群分布之间的距离,有效地提高了公平性,表明了一个在解决和减轻固有偏见方面有前景的方向。

  为了解耦图像和文本特征的好处,我们对BLIP2预训练模型进行线性探测,使用仅限视觉或(视觉+语言)特征。表4展示了以ES-AUC为衡量标准的性能-公平性权衡。我们注意到,除了语言外,多模态特征在所有受保护属性上都一致地改善了性能-公平性权衡。这凸显了VL模型有效利用了临床文本特征,尤其是在种族属性上观察到最显著的收益。

  为了调查不同视觉编码器对BLIP2模型公平性的影响,个人会使用了两种不同的预训练编码器——1)在自然领域训练的CLIP,而2)在医疗领域训练的PMC-CLIP。图3b中的结果为,PMC-CLIP在所有四个受保护属性上都优于CLIP,尤其是在种族子群上的收益最显著。我们注意到,专门针对医疗的LLM摘要器和视觉编码器一致地改善了VL模型的性能-公平性权衡,尤其是在种族属性上的改善最为显著。

  Beutel等人引入了一种公平性方法,该方法使用对抗性损失来防止模型不准确地预测敏感属性。这种方法旨在确保模型在不依赖其敏感属性的情况下预测图像的标签,由此减少分类中的偏见。图3c展示了CLIP、带对抗性损失的CLIP(CLIP w/ Adv)和FairCLIP之间的性能比较。带对抗性训练的CLIP(CLIP w/ Adv)的性能并不一致地超过所有属性中标准CLIP的性能。相反,FairCLIP一致地优于CLIP。这种性能上的变化可以归因于对抗性训练在保持每个属性等同预测准确性方面的固有挑战。另一方面,FairCLIP使用Sinkhorn损失,有效地鼓励所有样本的分布相对于每个组的分布的均匀性。

  鉴于医疗领域对公平性的关键需求,我们引入了第一个研究公平性的视觉-语言医疗数据集(FairVLMed),用于研究医疗VL基础模型的公平性。

  我们对FairVLMed的全面公平性分析揭示了所有VL模型中存在的显著偏见。未解决这些偏见,我们提出了FairCLIP,一种基于optimal transport的方法,有效地平衡了性能和公平性。