Conditional Generative Refinement Adversarial Networks for Unbalanced Medical Image Semantic Segmentation基于条件生成细优化的对抗网络的不平衡医学图像语义分割
摘要
针对医学图像语义分割中大部分像素属于健康区域,小部分像素属于病变或非健康区域的数据不平衡问题,提出了一种新的生成对抗结构。用不平衡数据训练的模型往往倾向于健康数据,而健康数据在临床应用中并不理想,这些网络的预测输出具有较高的精度和较低的敏感性。我们提出了一种新的条件生成式精化网络,它包含三个组成部分:生成式、判别式和精化网络,通过集成学习来缓解数据不平衡问题。生成网络根据真正映射和真负映射(true positive and true negative maps)从判别网络得到反馈,学习像素级分割。另一方面,细化网络学习预测生成网络产生的假阳性和假阴性masks,尤其在医学应用方面具有重要价值。最终的语义分割掩码由三个网络的输出组成。所提议的架构显示了在LiTS-2017上肝脏病变分割的最新结果,以及两个微观细胞分割数据集MDA231, PhCHeLa。我们在brats -2017中取得了脑瘤分割的竞争性结果。
1. 介绍
医学影像在疾病诊断、治疗计划和临床监测中起着重要的作用。医学图像分析的主要挑战之一是不平衡数据,正常或健康数据占多数,病变或不健康数据占次要。从类不平衡的训练数据中学习的模型会偏向大多数健康的类。这种网络的预测结果灵敏度较低,灵敏度显示了测试正确预测非健康类的能力。在医疗应用中,少数类的误分类成本可能高于多数类的误分类成本。例如,检测不到肿瘤的风险可能比把一个健康的对象介绍给医生要高得多。
分类不平衡的问题最近已经在疾病分类、肿瘤定位和肿瘤分割中得到了解决,文献中提出了两种方法:数据级方法和算法级方法。
在数据层面,通过对数据空间[29]进行重采样,包括正类的SMOTE (Synthetic Minority oversampling Technique)[12,31]或负类[25]的欠采样,实现类分布的平衡。然而,这些方法往往会导致去除一些重要的样本或向训练集添加冗余样本。其他的技术包括迭代采样[35]和小批量增量校正训练深度神经网络[11]。
另外,基于算法级的解决方案通过修改学习算法来解决类不平衡的问题,以减轻对多数类的偏见。例如精度损失[44]、Dice系数损失[23,22]和非对称相似度损失[18],它们针对误分类代价修改训练数据的分布。这些损失只能覆盖应用程序质量的某些方面。例如,在分割的情况下,需要使用不同的度量,如平均表面距离或Hausdorff表面距离。其他的方法则是通过集成学习来平衡,通过组合相同或不同的分类器来提高它们的泛化能力。Sun et al.[45]从偏差和方差的角度研究了组合冗余集成的效果。由于方差[45]的减少,集成模型的预测结果在少数类中得到了改进。在本研究中,我们试图透过生成型、判别型和精化型三种网络的综合学习来减轻类失衡问题的负面影响。
图像分割是医学图像计算中的一项重要任务,它试图准确地识别物体的边界,如解剖器官或异常。我们将我们提出的方法用于医学图像语义分割的自动化。 在我们的方法中,将3D生物医学图像表示为2D切片的序列(例如z-stacks)。 长短期存储器(LSTM)是处理顺序数据以便利用长期时间相关性的有效单位。 双向LSTM [16]是经典LSTM的扩展,能够改进序列处理中的模型性能。 双向LSTM具有访问下一个切片以及上一个切片中的信息的优势。 这提供了更多的上下文并消除了网络中的歧义,并导致了更快的学习[16]。 我们利用双向LSTM单位来增强时间一致性,并获得生成网络,判别网络和优化网络内部特征的片间和片内表示。
图(1)在cGAN和优化网络的两个阶段显示了我们提出的方法。 生成器和鉴别器的训练过程类似于两人min-max游戏,其中以交替方式训练生成器网络和鉴别器网络以分别最小化和最大化目标函数。 生成器将多模式医学图像的2D序列作为条件,并尝试生成相应的分割标签。 鉴别器确定发生器输出是真实的还是假的。 精炼网络学习cGAN生成的预测蒙版的假阴性和假阳性。 最终的语义分割掩码由来自cGAN和细化网络的预测掩码计算得出。
我们在不同的医学影像基准上进行了实验,这些实验证明了我们的方法对人体器官和肿瘤区域进行分割的一般能力。 这项工作的贡献可以总结如下:
•我们提出了一个条件细化GAN,以通过集成学习减轻医学图像语义分割中的不平衡数据问题(第2节)。
•我们设计优化网络,以解决错分类成本,这在医疗应用中具有重大价值(第2节)。
•我们研究了不同架构选择和规范化技术的影响(第2和第3节)。
2.方法
在本节中,我们提出用于医学图像语义分割的条件细化GAN。 为了解决分类错误的代价并减轻医学成像数据的不平衡,我们提出了一个由cGAN和优化构成的集成网络。
图1:提出的医学图像语义分割方法包括生成器网络,鉴别器网络和细化网络。 生成器尝试按像素级别分割图像,而鉴别器将合成输出分类为真实还是伪造。 最终的语义分割掩码是通过细化网络消除误报并添加预测的误报掩码来计算的。
2.1有条件精炼GAN
在传统的生成对抗网络中,生成模型G试图学习从随机噪声矢量z到输出图像y的映射; G:z! 。 同时,判别模型D估计来自训练数据xreal而不是生成器xfake的样本的概率。 GAN目标函数是一个类似于式(1)的两人游戏mini-max游戏。
mG in m D ax V(D; G)= Ey [logD(y)] + E x; z [log(1- D(G(x; z)))](1)
与先前的条件GAN不同[33, 24、48、34、28];在我们提出的方法中,生成模型学习从给定的二维多模态MR图像序列xi到序列语义分割yseg的映射; G:fxi; zg!
2.2。 网络架构
如图(1)所示,我们提出的方法由一个发电机网络和一个鉴别器网络组成,该网络在左侧,后面是一个精炼网络,在图的右侧。 我们针对G和D的对抗训练研究了条件GAN(第2.2.1节)和递归条件GAN(第2.2.1节)的两种不同架构。
2.2.1条件生成对抗网络
在我们的cGAN架构中,生成器是一个完全卷积的编码器/解码器网络,可为每个像素生成一个标签。 类似于UNet [40],我们在第i层和第n-i层之间添加了跳过连接,其中n是总层数。 每个跳过连接仅将第i层的所有通道与第n-i层的所有通道串联在一起。 我们使用内核大小为5×5的卷积层并大步前进编码器部分中的2进行下采样,解码器部分中的图2进行图像重新调整大小层的上采样,其倍数为2和内核大小为3×3的卷积层跨度为1。
在我们的体系结构的最后一层,多模式,多站点图像的高分辨率特征与全局低分辨率特征的上采样版本连接在一起,这有助于网络学习特征的本地和全局表示。
鉴别器是一个完全卷积的网络,与生成器网络的解码器部分具有相同的体系结构。
卷积层的层次特征传递给softmax损失,用于对分割后的像素标签是否属于正确类别进行分类。
2.2.2递归生成对抗网络
与我们的cGAN相似,在递归cGAN中,生成器和鉴别器都用双向LSTM单元替代[16]。 循环条件GAN具有在上一个和下一个切片之间获得时间一致性的优点。 在G和D内部使用双向LSTM单元可使网络了解上下文,这是时间数据分析中的重要点
2.2.3优化网络
我们在对抗网络的基础上设计优化网络,以应对不平衡的数据问题并改善分类。 精炼网络是具有瓶颈问题的双向LSTM的UNet体系结构,它从cGAN(或循环cGAN)获取2D序列输出,并带有2D医学图像序列,并且输出是2D序列掩盖的假阳性和假阴性。
通过添加假阴性和减去假阳性预测得到的最终语义分割从cGAN网络的输出中进行细化。
本文中所有拟议的体系结构均采用了(2.3)小节中所述的耐心微型批量标准化技术。
2.3Patient-wise Batch Normalization
已经开发了几种流行的标准化技术,例如批处理标准化[21]和最大范数约束[43],其核心思想是将输入移位为零均值和单位方差。 在应用非线性之前对输入进行归一化,以防止输入饱和极端非线性。 如Ioff等人所述。 [21],批归一化改善了整体优化和梯度问题。 在许多情况下,初始权重与真实权重有很大差异,从而延迟了训练过程中的收敛。 批处理规范通过将梯度归一化来减轻重量偏差的影响,从而加快了训练速度。
最近,分层抽样显示了个性化医学的成功结果[27]和统计信息[26],当总人口中的亚人群有所不同时。
分层抽样可以通过对每个子种群(阶层)进行独立采样,从而减少方差[49],其中阶层在同质和异质之间构建。
类似于分层采样的概念,我们首先对输入进行标准化,在这些输入中,均值和方差是根据同一采集平面(矢状,冠状和轴向)在特定患者上以及从所有可用图像模式(例如T1,T1- 相比之下,T2,Flair在BraTS基准中)。 在这方面,偏差逐渐变大,并且反向传播步骤需要解决这些较大的偏差,这限制了我们使用小的学习率来防止梯度爆炸。
例如,具有128张图像的微型批处理包含相同的患者图像和来自同一采集平面的四个可用模态。 算法。 图1显示了如何通过建议的耐心批量规范技术计算每个小批量的规格化。
3.实验
为了评估我们的网络在不平衡数据分割方面的性能并将其与最新方法进行比较,我们按照第(3.1)节所述训练了最近流行的带注释的医学成像基准。
3.1 数据集和预处理
第一个实验是对从BraTS2017挑战[32、5、6、7]获得的真实患者数据进行的。 BraTS2017在三个子集的训练,验证和测试中发布了数据,分别包含T1,T2,T1ce和四个多站点模式的289、47和147个MR图像
带注释的文件仅提供给训练集的Flair。 挑战是在高度不平衡的数据上对肿瘤的复杂且异质定位进行语义分割。 预处理是使所有受试者处于相似分布的重要步骤,我们在计算脑部强度的均值和标准差的四种方式上应用了z得分归一化。 我们还应用了Nyul等人介绍的偏置场校正。 [37]。 在第二个实验中,我们应用了LiTS2017基准测试,其中包含130个计算机断层摄影(CT)培训数据和70个测试集。 检查的患者患有不同的肝癌。 具有挑战性的部分是具有大(肝脏)和小(病变)目标的不平衡标签的语义分割。 在此,预处理以分片方式进行。 我们应用了Hounsfield单位(HU)值,该值在[100,400]范围内开窗以排除无关的器官和物体。 此外,我们应用直方图均衡化来增加对比度,以更好地区分异常肝组织。
在第三个实验中,我们在人类乳腺癌细胞的小型显微光数据集上测试了我们提出的方法的性能。 此外,我们提供了数据增强功能,例如随机裁剪,调整大小,缩放比例,-10至10度之间的旋转以及将高斯噪声应用于三个数据集的训练和测试时间。
3.2 实现
3.2.1 配置
我们提出的方法是基于Keras库实现的
3.3 评估结果与讨论
定量评估和比较是基于BraTS2017challenge 2提供的在线判断系统。我们还评估了我们的方法在CT图像上用于肝脏和1https://github.com/anonymous 2http://braintumorsegmentation.org的语义分割的性能。 挑战中使用LiTS2017中引入的质量指标来评估/病变。
3.3.1异质性脑肿瘤分割:
从医学图像分割脑肿瘤在外科手术计划和治疗监测中非常有趣。 如组织者[32、5、6、7]所述,分割的目的是描绘不同的肿瘤结构,例如活动的肿瘤核心(TC),增强的肿瘤(ET)和水肿或整个肿瘤(WT)区域。
图(3)详细显示了cGAN网络和优化网络的定性结果。 基于图(3),结果表明细化网络后的分割与地面真实性有很好的关系。 通过消除错误的负像素并添加错误的正像素来优化最终输出。
BraTS2017引入了Dice得分,Hausdorff距离,灵敏度和特异性,作为分割任务的评估标准。 表(1,2)给出了所提出的体系结构的脑部分割结果,并将其与基于处理前报告的其他相关方法进行比较[42]。
根据表(1),与优化网络后的分割结果相比,具有一个生成器和鉴别器的cGAN网络(第二行)实现了整个肿瘤区域分割的精度低12%。 在第一阶段,通过真实的正负掩模来训练生成器。 同时,鉴别器网络测试生成器创建的预测掩码的真实性。 在cGAN的顶部,优化算法学习了假阴性和假阳性掩码。 表(2)详细介绍了网络体系结构中的假阴性率(1-召回)和假阳性率(1-特异性)。 根据cGAN(或递归cGAN)网络计算出的最终掩码,其中消除了误报并添加了细化网络预测的误报。
对于表(2)中的错误发现率结果,通过循环条件GAN和细化网络计算出的细分蒙版,我们在BraTS2017比赛中获得了第二名和第三名团队的良好成绩。 关于表(1和2)的定量结果,用LSTM单位替代的网络预测了更准确的结果。
在测试时间中,每组从接收测试对象到处理他们并将其细分结果提交到在线评估系统都需要48小时。 在测试时间内,Dice系数的平均值为0.85,由挑战组织者获得并评估了表(3)的结果。 由于测试挑战的结果尚未公开,因此我们无法在测试时间内比较不同方法的性能。
值得一提的是,在测试时,我们的方法仅用58秒即可分割出一个由155个切片组成的MR脑图像。
3.3.2肝和病变同时分割
3.3.3微观细胞分割
显微镜下的细胞图像是生物学研究过程的关键组成部分,细胞自动分割对于临床常规检查很有帮助。 我们在两个光学显微镜细胞数据集:MDA231和PhC-HeLa上评估了我们的方法。 来自人乳腺癌的MDA231由96张图像组成,这些图像带有专家分段的地面真相文件。 第二个数据集是PhC-HeLa,它由HeLa细胞子宫颈癌菌落的22个相衬图像组成。 该数据集的基本事实由所有2,228个单元格的单元格标记组成。
图(5和7)比较了使用和不使用患者智能小批量标准化训练网络时测试集的定性结果。 基于患者的小批量标准化可基于来自同一患者的所有可用2D图像为神经网络的任何层提供标准化。
基于定性结果和图(5),我们的网络能够从少量样本(MDA231和PhC-HeLa)以及大型样本数据集(BraTS2017)中学习。 我们将定量结果与最新的细分方法进行了比较。 表(7,6)中详细列出了单个细胞分割的定量结果。 显然,我们可以看到多样性和图像数量对最终结果没有重大影响。
如图(6)和表(7)所示,当训练的数据集样本很少时,高斯噪声会对分割结果产生负面影响。 对于所有数据集,我们都有相同的数据扩充政策。 我们在下雨时探索了大型数据集,其中生成器网络在医学图像旁边采用高斯噪声矢量,其行为与没有噪声矢量时基本相同,并且输出样本中的差异最小。 相比之下,训练有素的网络以及很少的样本以及噪声矢量会对最终输出产生负面影响。
4.结论
在本文中,我们介绍了一种新颖的深度架构,以减轻数据不平衡的问题并提高医学图像分割任务中的错误发现率。为此,我们提出了一个生成网络,双鉴别器网络,其中生成器分割像素标签,鉴别器对分割后的输出是真实的还是假的进行分类。 另一个称为细化网络的鉴别器在生成器预测的假阳性和假阴性掩码的预测上受到训练。 此外,我们分析了不同架构选择的影响以及有助于改善语义分割结果的患者明智的小批量技术。 我们提出的方法在显微细胞分割和肝损伤分割方面显示了出色的结果。 我们在脑肿瘤分割和肝脏分割方面取得了竞争性结果。 将来,我们计划研究当前网络在学习多种临床任务(如疾病分类和语义细分)方面的潜力。