医学图像分析中的可解释深度学习模型

1 引言

使用人工智能(AI)的计算机辅助诊断(CAD)提供了一种有前途的方法,可以使诊断过程更加有效并为大众所用。深度学习是用于包括医学成像问题在内的各种任务的领先AI方法。它是几种计算机视觉任务的最新技术,已用于医学成像任务,例如阿尔茨海默氏症的分类[1],肺癌检测[2],视网膜疾病检测[3,4]等。在医学领域,基于AI的方法尚未在临床中得到广泛应用。这是由于深度学习算法具有潜在的黑盒性质以及其他原因,例如计算成本。这源于以下事实:尽管具有基本的统计原理,但缺乏明确表示由深度神经网络执行的给定任务的知识的能力。诸如线性回归和决策树之类的简单AI方法很容易说明,因为使用模型参数可以在几个维度上可视化用于分类的决策边界。但是这些都缺乏诸如3D分类和大多数2D医学图像之类的任务所需的复杂性。缺乏检查黑匣子模型行为的工具会影响深度学习在金融和自动驾驶等所有领域的使用,在这些领域中,可解释性和可靠性是最终用户信任的关键要素。

医疗诊断系统需要透明,可理解和可解释才能赢得医师,监管者以及患者的信任。理想情况下,它应该能够向所有相关方解释做出特定决定的完整逻辑。诸如欧洲通用数据保护法规(GDPR)之类的新法规使在包括医疗保健在内的所有业务中更难以使用黑匣子模型,因为现在需要决策的可追溯性[5]。补充医学专业人员的AI系统应具有一定的可解释性,并允许人类专家追溯决策并运用其判断力。一些研究人员还强调,即使人类也不总是能够甚至不愿意解释自己的决定[5]。可解释性是安全,道德,公平和可信赖地使用AI的关键,也是在现实世界中部署AI的关键推动力。通过展示决策时模型的外观来打破关于AI的神话,可以在最终用户中树立信任。对于像大多数医疗专业人员这样的非深度学习用户来说,显示决策中使用的特定领域功能就显得尤为重要。

术语可解释性和可解释性在文献中经常可互换使用。在[6]中提供了两者之间的区别,其中解释被定义为将诸如输出类之类的抽象概念映射到一个域示例中,而解释被定义为一组域特征(例如图像的像素)有助于输出决策模型的这个概念的一个相关术语是与模型决策相关的不确定性。深度学习分类器通常在模棱两可的情况下无法说“我不知道”,而是以最高的概率返回课程,即使差距很小。最近,在许多研究中已经分析了不确定性以及可解释性的问题,以突出模型不确定的情况,从而使模型更适合非深度学习用户。深度学习模型被认为是不透明的,因为神经元的权重不能直接理解为知识。[7]表明,激活的强度或选择性以及对网络决策的影响都不足以决定神经元对于给定任务的重要性。在[8]中提供了对可解释AI的术语,概念和用例的详细分析。

本文描述了与医学影像环境下的深度学习模型的可解释性有关的研究。下一部分将简要介绍可解释性方法的一般分类法,而在第三部分中将对各种基于属性的方法进行比较。第4部分回顾了适用于不同医学成像方式的各种可解释性方法。根据归因的使用或其他可解释性的方法,该分析分为4.1和4.2小节。医学影像分析中可解释的深度学习模型的发展,当前趋势和未来的可能性总结于5。

2 可解释性方法分类

文献中已经提出了几种分类法,以对不同的可解释性方法进行分类[9,10]。通常,分类技术不是绝对的,它可以根据方法的特征而变化很大,并且可以同时分类为许多重叠或不重叠的类别。这里简要讨论了不同种类的分类法和分类方法,有关分类法的详细分析可以在[8,9]中找到,其流程图如图1所示。

2.1模型特定与模型不可知

特定于模型的解释方法基于各个模型的参数。图神经网络解释器(GNNExplainer)[11]是一种特定于模型的可解释性,其中数据表示的复杂性需要图神经网络(GNN)。模型不可知方法主要适用于事后分析,而不仅限于指定的模型体系结构。这些方法无法直接访问内部模型权重或结构参数。

2.2全局方法与局部方法

本地可解释方法适用于模型的单个结果。这可以通过设计可以解释特定预测或结果原因的方法来完成。例如,它对特定功能及其特征感兴趣。相反,全局方法通过利用有关模型,训练和相关数据的整体知识,将精力集中在模型内部。它试图从总体上解释模型的行为。特征重要性是该方法的一个很好的例子,该方法试图找出通常在所有不同特征中使模型具有更好性能的特征。

2.3预模型vs模型内vs后期模型

预模型方法是独立的,不依赖于特定的模型体系结构来使用。主成分分析(PCA)[12],t分布随机邻居嵌入(t-SNE)[13]是这些方法的一些常见示例。集成在模型本身中的可解释性方法称为模型内方法。一些方法是在建立模型后实施的,因此将这些方法称为后期模型,并且这些方法可能潜在地产生有关在培训期间确切学习了什么模型的有意义的见解。

2.4替代方法与可视化方法

替代方法由作为集成的不同模型组成,用于分析其他黑盒模型。通过比较黑盒模型的决策和代理模型的决策,可以解释代理模型的决策,从而更好地理解黑盒模型。决策树[14]是替代方法的一个示例。可视化方法不是不同的模型,但是可以通过视觉理解(例如激活图)来帮助解释模型的某些部分。
要注意的是,这些分类方法是非排他性的,它们建立在不同的逻辑直觉上,因此具有明显的重叠。例如,大多数归因模型,例如归因,也可以被视为不可知模型,因为这些方法通常不依赖于模型的结构。但是,对于某些归因方法确实存在一些有关模型层或激活函数的限制的要求。下一节将介绍基本的概念以及各种归因方法之间的细微差别,以便于在第4节中对应用程序进行比较讨论。

3 解释性方法-基于归因

可以使用两种类型的方法来解释医学成像中的深层神经网络(DNN)的结果-使用基于标准归因方法的方法和通常使用新颖方法的方法体系结构或特定领域的技术。本节将讨论用于前者的方法,并在4.1中提供应用程序,而在本节中将讨论后者的方法及其应用4.2。为网络的每个输入特征分配归因值或贡献或相关性的问题导致了几种归因方法的发展。归因方法的目标是确定输入特征对目标神经元的贡献,该目标神经元通常是分类问题的正确类别的输出神经元。所有输入要素的属性以输入样本的形状排列会形成称为属性图的热图。图2显示了不同图像的归因图的一些示例。对目标神经元的激活有积极贡献的特征通常用红色标记,而对激活有负面影响的特征则用蓝色标记。在图像分别提供不同大小的正负证据的情况下,这些是特征或像素。

本节将讨论常用的归因方法,下一节将讨论应用程序。必须注意的是,诸如DeepTaylor[16]之类的一些方法仅提供肯定的证据,并且对某些任务集可能有用。归因方法可以应用于黑匣子卷积神经网络(CNN),而无需对其进行任何修改。基础架构使它们成为便捷而强大的ExplainableAI(XAI)工具。在本节中讨论的一些方法和称为DeepExplain的统一框架的经验比较可在[17]中获得。除了新的深度学习重要特征(LIFT)和DeepSHapleyAdditiveExPlanations(SHAP)之外,这里讨论的大多数方法都在iNNvestigate工具箱中实现[15]。

3.1基于扰动的方法-遮挡

扰动是分析更改输入特征对AI模型输出的影响的最简单方法。这可以通过删除,掩盖或修改某些输入功能,运行前向通过(输出计算)并测量与原始输出的差异来实现。这类似于在参数控制系统模型中执行的灵敏度分析。最影响输出的输入要素被列为最重要的要素。由于需要在干扰输入的每组特征之后运行前向传递,因此计算量很大。对于图像数据,扰动是通过用灰色补丁覆盖图像的一部分,然后从系统视图中遮挡它们来执行的。通过突出显示负责任的功能,它可以提供正面和负面的证据。Zeiler和Fergus[18]将该技术应用于CNN进行图像分类任务。

遮挡是任何归因研究的基准,因为它很容易执行模型不可知论方法,从而揭示了模型的功能重要性。它可以揭示出一个模型是否过拟合并学习了不相关的特征,如对抗性例子[19]。对抗性示例是旨在使模型做出错误决策的输入,就像模型的错觉一样。在那种情况下,尽管存在区分特征,该模型仍将图像错误分类(比如说猫是狗),将所有特征(像素)一张一张地遮挡并每次运行前向通行可能在计算上很昂贵,并且可能要花费数小时每个图片[17]。根据目标特征的大小和可用的计算资源,通常使用大小为5x5、10x10甚至更大的补丁。

另一个基于扰动的方法是Shapley值采样,该方法通过对每个输入特征进行采样次数来计算近似的Shapely值。这是一种来自联盟博弈理论的方法,该方法描述了输入要素之间收益和损失的公平分配。它最初是为回归分析而提出的[20]。它比所有其他方法都要慢,因为必须对网络进行特征次数的采样。结果,它不是原始形式的实用方法,而是导致了基于游戏理论的方法(如DeepSHAP)的发展,这将在下一部分中讨论。

3.2基于反向传播的方法

这些方法通过网络一次向前和向后传递来计算所有输入要素的属性。在某些方法中,这些步骤需要重复多次,但它与输入特征的数量无关,并且比基于扰动的方法要低得多。更快的运行时间是以结果与输出变化之间较弱的关系为代价的。表1中描述了各种基于反向传播的归因方法。必须注意的是,这些方法中的某些仅提供正面证据,而其他方法同时提供正面和负面证据。同时提供正面和负面证据的方法往往会产生高频噪声,这可能会使结果显得虚假[17]。

DeepLIFT[28]论文介绍了归因方法的一个重要属性,即完整性。它指出,给定输入的属性加起来等于目标输出减去基线输入处的目标输出。集成渐变,DeepTaylor和DeepSHAP可以满足要求,但DeepLIFT的重新缩放规则不能满足要求。在[17]中提出了一种概括此属性的措施,用于各种归因方法的定量比较。它称为灵敏度n,它涉及根据皮尔逊相关系数(PCC)比较归因之和与目标输出的变化。闭塞具有比其他方法更高的PCC,因为它发现输入的变化与输出的变化之间存在直接关系。

Explainable deep learning models in medical image analysis【谷歌翻译】 - 图1Explainable deep learning models in medical image analysis【谷歌翻译】 - 图2Explainable deep learning models in medical image analysis【谷歌翻译】 - 图3

归因方法的评估很复杂,因为要区分模型的错误和解释该模型的归因方法具有挑战性。诸如n敏感度之类的措施奖励旨在紧密反映网络行为的方法。但是,归因方法的一种更实际相关的度量是归因与人类观察者期望的相似性。对于给定的任务,它需要由人类专家来执行,并带有观察者偏见,因为更接近观察者期望的方法可能会以解释模型行为的代价为代价而受到青睐。我们强调这样一个论点,即特定领域的专家对不同归因方法的评级可能有助于开发可解释的模型,这些模型更可能被最终用户信任,因此应成为XAI系统开发的关键部分。

4 应用

本文将可解释性在医学成像中的应用分为两类,一类是使用基于现有属性的方法,另一类是使用其他通常特定的方法。 根据解释性方法和医学成像应用对方法进行了讨论。 表2简要概述了这些方法。

4.1基于归因

研究深度学习方法的可解释性的大多数医学影像文献都基于归因方法,因为它们易于使用。研究人员可以训练合适的神经网络体系结构,而不会使其内在地变得可以解释,并且可以使用容易获得的归因模型来增加复杂性。这允许使用既有的深度学习模型或具有自定义架构的模型来在给定任务上获得最佳性能。前者使实现更加容易,并且允许人们利用诸如转移学习[31,32]之类的技术,而后者则可用于关注特定数据并通过使用较少的参数来避免过度拟合。两种方法都有利于医学成像数据集,后者往往比ImageNet [33]等计算机视觉基准要小。

使用归因的模型后分析可以揭示该模型是在学习相关特征还是通过学习虚假特征而过度拟合输入。这使研究人员可以调整模型架构和超参数,以在测试数据上获得更好的结果,进而获得潜在的实际设置。在本节中,回顾了使用归因方法跨医学成像模式进行的一些近期研究,例如脑磁共振成像(MRI),视网膜成像,胸部成像,皮肤成像,计算机断层扫描(CT)扫描和胸部X射线。

脑成像
一项使用脑MRI比较各种基于归因的CNN方法在阿尔茨海默氏症分类中的鲁棒性的研究[34]对不同方法进行了定量分析。比较了梯度x输入,GBP,LRP和遮挡。同一模型的多次运行的平均属性图之间的L2范数可检查相同训练的模型的热图的可重复性。发现与基线阻塞相比,前三种方法的数量级要低,因为阻塞覆盖的面积更大。LRP总体上表现最好,表明完全基于属性的方法优于基于功能和基于信号的方法。在LRP中,各轮次归因的前10个区域的总和,密度和增益(总和/密度)之间的相似性也最高。在另一项研究中[35],GradCAM和GBP用于分析CNN从MRI自动分级脑肿瘤所学特征的临床一致性。对于正确分级的病例,两种方法在肿瘤区域的激活率最高,同时也激活周围的心室,这也可能表明恶性肿瘤。在某些情况下,这种对非肿瘤区域的关注以及GBP映射中的一些虚假图案会导致错误,指示功能不可靠。

视网膜成像
眼科医生研究了产生IG热图和模型预测的系统,作为协助糖尿病性视网膜病变(DR)分级的工具[36]。与无助的专家或仅凭模型预测的专家相比,这种帮助可以提高评分的准确性。最初,该系统增加了评分时间,但随着用户的体验,评分时间减少,评分可信度增加,尤其是在同时使用预测和热图的情况下。值得注意的是,当使用模型辅助并提供切换辅助的选项时,没有DR的患者的准确性确实降低了。IG的一种扩展称为表达梯度(EG)[37],用于弱监督病变的年龄相关性黄斑变性(AMD)诊断。具有紧凑架构的CNN优于现有的较大CNN和EG,比传统的IG和GBP方法更能突出显示感兴趣的区域。EG通过使用高级归因图充实输入级别的归因图来扩展IG。对用于检测脉络膜新生血管(CNV),糖尿病性黄斑水肿(DME)和来自光学相干断层扫描(OCT)扫描的玻璃疣的模型进行了包括DeepLIFT,DeepSHAP,IG等在内的各种可解释性模型的比较分析[38]。图3突出显示了较新方法(例如DeepSHAP)所实现的更好的定位,而较旧方法(例如显着性图)所产生的噪声却相反。

Explainable deep learning models in medical image analysis【谷歌翻译】 - 图4

乳房成像
IG和SmoothGrad被用来可视化CNN的特征,该特征用于根据乳腺MRI对雌激素受体状态进行分类[39]。观察到该模型在空间和动态领域都学到了相关的特征,而两者的贡献却不同。可视化显示了对预处理工件产生的某些不相关特征的学习。这些观察结果导致预处理和培训方法的变化。较早的一项研究是使用两种不同的CNN-AlexNet[41]和GoogleNet[42]从乳房X线照片[40]进行显着性图像可视化。看到两个CNN都学习了包块的边缘,这是主要的临床标准,同时也对上下文敏感。

皮肤成像
使用GradCAM和KernelSHAP比较了一组30个为黑色素瘤检测训练的CNN模型的功能[43]。结果表明,即使是高精度模型也偶尔会关注与诊断无关的特征。在产生相似准确性的模型解释中存在差异,这两种方法的归因图都突出了这一点。这表明不同的神经网络体系结构倾向于学习不同的功能。另一项研究[44]可视化了CNN皮肤病变分类的特征。通过将激活的特征图重新缩放为输入大小,可以可视化最后两层的特征。观察到这些层正在观察诸如病变边界和颜色不均匀的指示物以及诸如浅肤色或粉红色质地的危险因素。但是,还发现了伪造的特征(如伪影和头发),这些伪造的特征没有意义,这表明一定程度的过度拟合。

CT成像
在[46]中提出了DeepDreams[45]启发性的归因方法,用于解释肝脏CT图像对肿瘤的分割。这种使用DeapDreams概念制定的新颖方法,可以像第3节中讨论的其他归因方法一样,将图像生成算法应用于黑盒神经网络。它通过最大化目标神经元的激活来对特征进行灵敏度分析。执行梯度上升,即找到函数的最陡斜率。在针对真实肿瘤和合成肿瘤训练的网络之间的比较表明,前者对临床相关特征更为敏感,而后者也专注于其他特征。发现该网络对强度以及与领域知识一致的球形度敏感。

X射线成像
在最近的一项从胸部X射线图像中检测COVID-19的研究中[47],一种称为GSInquire的方法被用于生成热图,以验证所提出的COVID-net模型学习到的特征。GSInquire[48]是作为一种归因方法而开发的,它在提议的新指标(影响得分和影响范围)方面优于SHAP和Expected梯度等先前方法。影响得分定义为对模型决策或置信度有重大影响的要素的百分比。虽然影响范围是在输入中受敌方影响因素的范围内定义的。另一项研究使用胸部X射线分析了COVID-19检测的不确定性和可解释性。使用显着图,GuidedGradCAM,GBP和类激活图(CAM)生成了训练模型的样本输入的热图。

除了上面讨论的来自图像和非图像输入的更常见的成像方式外,还有其他研究使用基于归因的方法进行诊断。一项研究对CNN进行了不确定性和可解释性分析,用于直肠癌前体大肠息肉的语义分割[49]。使用GBP绘制热图,发现CNN正在利用边缘和形状信息进行预测。同样,不确定性分析显示,错误分类的样本具有更高的不确定性。在[50]中,提出了一种使用SHAP归因进行低氧血症的可解释模型,即在手术期间预测低血氧张力。进行该研究以分析术前因素以及手术参数。得出的归因与已知因素如体重指数,身体状况(ASA),潮气量,吸氧量等相符。

基于归因的方法是可视化神经网络的最初方法之一,此后从简单的类激活图和基于梯度的方法演变为诸如DeepSHAP之类的高级技术。这些方法的更好的可视化结果表明,在大多数情况下,模型正在学习相关功能。对任何虚假特征的存在进行仔细检查,并标记给读者,并对模型训练方法进行调整。较小的和特定于任务的模型,例如[37]以及归因方法的自定义变体,可以改善相关特征的识别。

4.2基于非归因

本小节中讨论的研究通过开发一种方法并针对给定的问题进行验证来解决可解释性问题,而不是使用像以前讨论过的基于归因的现有方法进行单独的分析。这些使用的方法,例如注意力图,概念向量,返回相似的图像,文本说明,专家知识,生成建模,与其他机器学习方法的组合等。必须注意的是,大多数方法仍然是后期模型,但通常会实现需要对模型结构进行特定的更改,例如在关注图中或在基于规则的方法的情况下增加专家知识。在本节中,研究按其采用的可解释性方法分组。

4.2.1基于注意

注意是深度学习中一个流行且有用的概念。注意的基本思想是受人类注意图像或其他数据源的不同部分进行分析的方式启发的。关于神经网络中注意力机制的更多细节在[51]中讨论。[52]中给出了医学诊断中关注的一个例子。在这里,我们讨论如何将基于注意力的方法用作医学图像分析的可解释性深度学习工具。提出了一个称为MDNet的网络[53],以在医学图像和相应的诊断报告之间进行直接映射。借助图像模型和语言模型,该方法使用注意力机制来可视化检测过程。通过使用这种注意力机制,语言模型发现了主要和歧视性特征,以学习图像与诊断报告之间的映射。这是第一项利用注意力机制从医学图像数据集中获取有洞察力信息的工作。在[54]中,提出了一种称为SAUNet的U-Net[55]的可解释版本。它添加了并行的辅助形状流,以捕获重要的基于形状的信息以及图像的常规纹理特征。该体系结构在U-Net的解码器部分中使用了关注模块。使用SmoothGrad生成空间和形状注意图,以可视化图像的高激活区域。

4.2.2概念向量

在[56]中提出了一种称为测试概念激活向量(TCAV)的新颖方法,以向没有任何深度学习专长的人类可理解概念的领域专家解释不同层所学习的功能。它在概念空间中采用了网络的方向导数,就像在显着性地图的输入要素空间中那样。经过测试可以解释DR水平的预测,从而成功检测出视网膜中存在微动脉瘤和动脉瘤。这提供了对于医学从业者而言在存在或不存在图像中给定概念或物理结构方面容易解释的理由。然而,许多临床概念,如结构的质地或形状,无法根据是否存在来充分描述,需要连续的测量规模。TCAV的扩展使用层的激活空间中的回归概念向量(RCV)来使用概念的存在或不存在,以检测连续的概念[57]。该网络的任务是从乳腺淋巴结样本中检测肿瘤。结果发现,大多数相关特征(如面积和对比度)都存在于模型的早期层中。TCAV的进一步改进是使用一种称为统一单位球表面采样(UBS)的新度量[58],为连续和高维特征提供层不可知的解释。它可以解释跨多层的高维放射线学概念,这些概念已使用乳腺X线照片进行了验证。该模型产生了重要概念之间的差异,发现该概念在SqueezeNet的各个层中均较低[59],而与具有3个密集层的基准CNN相比,说明了SqueezeNet的性能更好。

4.2.3专业知识

本文中讨论的绝大多数研究都试图使用不同的方法将模型特征与专家知识相关联。另一种方法是使用特定领域的知识来制定规则以进行预测和解释。在[60]中提供了使用特定于任务的知识来改善结果的示例,以及使用基于U-Net[55]的体系结构和关键点的中线偏移(MLS)估计的说明。它被简化为在域约束下使用该模型检测中线的问题。使用端点获得原始中线,因此计算出与预测中线的偏移。该模型还提供了预测的置信区间,从而使最终用户更相信它们。另一项研究[61]使用了基于规则的肺结节分割指南,随后进行了扰动分析以计算每个区域中特征的重要性。对于已经使用规则标记的区域提供的解释被发现对用户来说更容易理解,并在数据中显示了改进模型的依据。然后,使用此方法在整个数据集的全局级别上进行解释,从而提供相关功能的概述。

4.2.4相似图片

一些研究向用户提供了类似标签的图像,作为对给定测试图像进行预测的原因。一项研究[6]提出了使用高斯混合模型(GMM)以及基于训练和测试图像的GMM分量的二进制编码来返回相似的3D图像的3D-CNN层分析的方法,作为解释。系统使用图集作为其决定的澄清信息,返回了激活方式相似的训练图像。它在3DMNIST和MRI数据集上得到了证明,并在其中返回了具有相似萎缩状况的图像。但是,发现在某些情况下,激活相似性取决于图像的空间方向,这可能会影响返回图像的选择。在对皮肤镜图像的研究中,使用基于三重损失和k个最近邻(kNN)搜索的学习策略来学习CNN特征嵌入以进行可解释的分类[62]。提供的证据是最近的邻居和局部图像区域,这些区域负责测试图像与那些邻居之间的最小距离。另一种方法使用单调约束来解释样式和深度这两个数据集的预测-皮肤镜检查图像和术后乳房美学[63]。它将输入流与受约束的单调CNN和不受约束的CNN串联在一起,以产生预测以及它们对相似图像和互补图像的解释。该系统仅设计用于二元分类。

4.2.5文字理由

可以根据给出推理的句子或短语来解释其决策的模型可以直接与专家和普通用户进行交流。从分类器的视觉特征以及预测的嵌入中获取输入的合理化模型用于生成诊断语句和视觉热图以进行乳房质量分类[64]。在证明产生器的训练中应用了视觉单词约束损失,以在仅存在有限数量的医学报告的情况下产生证明。由于与通常的工作流程和学习过程相似,因此可以使用这种多模式解释来获得更大的用户信心。

4.2.6内在的可解释性

内在可解释性是指模型根据人类可观察的决策边界或特征来解释其决策的能力。这些通常包括相对简单的模型,如回归,决策树和支持向量机(SVM),可以在其中观察决策边界的几个维度。最近的研究使深度学习模型本质上可以使用不同的方法来解释,例如与机器学习分类器的混合以及可视化分割空间中的特征。

后者的一个例子在[65]中使用可变自动编码器的特征的潜在空间对阿尔茨海默氏病患者的大脑MRI进行分类和分段。使用MLP在二维潜在空间中进行分类。根据区分特征中编码的解剖变异性,在三维潜在空间中执行分割。这导致将分类器的特征可视化为通常用于临床决策的整体和局部解剖特征。一项从功能性磁共振成像(fMRI)中检测自闭症谱系障碍(ASD)的研究使用了深度学习和SVM的混合方法来进行可解释的分类[66]。SVM用作深度学习模型特征的分类器,决策边界的可视化解释了该模型。

本小节讨论了多种非归因可解释性方法,但是由于该领域引起人们的广泛兴趣,因此频繁发布较新的方法,因此该列表并不详尽。这些方法的设计比在训练模型的输入上应用基于归因的方法更为复杂。诸如概念向量,基于专家的规则,图像检索方法之类的特定元素通常需要在模型训练级别上进行集成。这种增加的复杂性可能会以付出更多的设计工作为代价来提供更多特定于域的解释。值得注意的是,对于特定的体系结构或领域,这些技术中的大多数仍然是事后的步骤。此外,由于图像提供的详细信息,这是自动诊断的主要方法,因此我们将我们的范围限制在医学成像上。但是,患者记录也为诊断提供了丰富的信息,并且有研究讨论了其可解释性。例如,在[67]中,提出了一种基于门控循环单元(GRU)的循环神经网络(RNN),用于根据电子医疗记录(EHR)的诊断代码进行死亡率预测。它使用网络中的层次结构注意力来解释结果和可视化结果。

Explainable deep learning models in medical image analysis【谷歌翻译】 - 图5

5 讨论

在解释深度学习模型(尤其是用于医学诊断的模型)的决策方面取得了重大进展。了解导致特定决策的功能对于模型设计人员消除可靠性问题很有帮助,以使最终用户获得信任并做出更好的判断。几乎所有这些方法都以局部可解释性为目标,即为单个示例解释决策。然后,通过平均突出显示的特征,将其推断到全局级别,尤其是在图像具有相同的空间方向的情况下。然而,诸如概念向量(4.2.2)之类的新兴方法就领域概念而言,为每个类别的决策提供了更全面的视角。

分析黑匣子的功能很重要,因为错误的原因可以做出正确的决定。在实际环境中部署系统时,这是一个可能影响性能的主要问题。大多数方法(尤其是基于归因的方法)都可以作为开源实现。但是,某些方法(例如GSInquire [48])在某些指标上显示出更高的性能是专有的。商业对可解释性的兴趣日益增加,尤其是可用于多种业务用例的归因方法。

尽管取得了所有这些进步,但仍需要使可解释性方法更加全面,并与不确定性方法交织在一起。需要进行更多的研究,如[36],以观察可解释性模型对临床专家的决策时间和准确性的影响。专家反馈必须纳入此类可解释性方法的设计中,以根据其需求量身定制反馈。最初,此类可解释的深度学习方法的任何临床应用都可能是“环环相扣”(HITL)混合体,使临床专家可以控制该过程。可以将其视为类似于自适应巡航控制或车道保持辅助的驾驶辅助工具,在这种情况下,驾驶员仍然可以控制并负责最终决策,但工作量减少且安全网增加。

工作的另一个方向可以是在决策过程中一起使用多种模式,例如医学图像和患者记录,并将模型决策归因于每个模型。这可以模拟临床医生的诊断工作流程,其中使用患者的图像和物理参数来做出决定。它可以潜在地提高准确性并以更全面的方式进行解释。综上所述,可解释的诊断正在取得令人信服的进步,但是要满足最终用户,监管者和公众的期望,仍然还有一些路要走。