https://mp.weixin.qq.com/s/GlnmhjPpctRD60XLKNj1hA

原创 微科盟 蛋白质组 2022-03-24 14:00
收录于话题
#机器学习2个
#综述36个
#多组学17个
【转】西交大长篇系统综述 |机器学习遇上组学:应用与前景(国人佳作) - 图1 点击蓝字“蛋白质组”,轻松关注不迷路
【转】西交大长篇系统综述 |机器学习遇上组学:应用与前景(国人佳作) - 图2
生科云网址:https://www.bioincloud.tech/
阅读原文


编译:微科盟-芝麻芋头,编辑:微科盟Emma、江舜尧。
微科盟原创微文,欢迎转发转载。
导读
机器学习遇上组学:应用与前景音频:00:00/01:08
生物技术的创新发展使组学数据以惊人的速度积累,从而进入了“大数据”时代。从各组学数据中挖掘宝贵的知识仍然是生物信息学研究中的一个主要问题。更好的解决方案通常需要更具创新性的方法来实现有效的处理并获取有意义的结果。多组学数据的集成分析和数学建模的最新进展有助于满足这些需求。机器学习的发展和应用在很大程度上推进了科学家在生物学和医学上的观察发现,并极大地推动了治疗策略的发展,特别是精准医疗。本综述进行了全面的调研和讨论,论述当机器学习遇到组学时已经发生、正在发生和将要发生的事情。具体描述了人工智能如何应用于组学研究,并回顾了机器学习与各种组学(包括基因组学、转录组学、蛋白质组学、代谢组学、放射组学以及单细胞水平的各种组学)之间的最新进展。还讨论并综合了组学中关于机器学习研究的挑战以及新的见解和观点。
论文ID
原名: Machine leaning meets omits:applications and perspectives
译名:机器学习遇上组学:应用与前景
期刊:Briefings in Bioinformatics
IF:11.622
发表时间:2022.01
通讯作者:杨娟
通讯作者单位:西安交通大学基础医学院
主要内容

1.人工智能和机器学习入门

在1956年的达特茅斯会议上,人工智能(AI)被正式定义。之后人工智能迅速发展,进入了黄金时代。人工智能领域包含非常丰富的内容。机器学习(ML)是重要的分支之一,它是实现AI的一种方法,包括许多数学工具和算法。机器学习在初始阶段取得了许多突破,但在20世纪60年代,由于理论的缺陷,机器学习的发展几乎停滞不前。直到20世纪80年代反向传播算法被提出,机器学习才重新活跃起来,得到了快速发展和广泛的应用。然后,深度学习(DL)从机器学习中的人工神经网络(ANN)衍生而来,取得了很大的突破,并开启了自2006年以来的深度学习浪潮。近十年来,随着组学数据的快速积累和大数据分析需求的不断增加,人工智能在组学研究中得到了广泛的应用。AI的主要内容和时间线总结如图1所示。
【转】西交大长篇系统综述 |机器学习遇上组学:应用与前景(国人佳作) - 图3
图1|人工智能、机器学习和深度学习之间的时间表和概念关系,以及它们在组学中的应用。

作为人工智能的一个分支,机器学习是通过计算模型和算法从数据中学习规律。它致力于探索如何通过计算和经验来提高系统本身的性能(图1)。机器学习在自然语言处理、计算机视觉、数据挖掘等方面有着非常广泛的应用。根据不同的用途,机器学习算法可分为聚类算法、分类算法、回归算法、关联规则算法、降维算法等。根据数据类型和训练策略,机器学习大致分为三类:监督学习、无监督学习和强化学习(图S1,https://github.com/xuyungang/ML_meets_omics_supp._notes)。每种机器学习技术都能自动学习如何识别复杂的模式,并根据数据做出明智的决策。在这些类别中,监督学习主要解决回归问题和分类问题,而无监督学习主要解决聚类问题。强化学习问题通过反复试验学习新经验来解决问题。传统的机器学习算法包括广义回归、决策树、朴素贝叶斯、支持向量机(SVM)、K-均值聚类和许多其他算法。学习算法的基本层次结构及其在组学中的主要应用可以参见Github上提供的图表(图S1)。
深度学习起源于人工神经网络,是机器学习最重要的分支之一。自2006年正式提出以来发展迅速。深度学习集技术、科学、艺术于一体,涉及统计、优化、算法、编程、分布式计算等领域。通过构建包含学习器的多个隐藏层的模型,可以实现复杂的函数关系,并使用大量数据来训练和提取特征,从而提高分类和预测的准确性。深度学习方法有许多类型的深度模型。常用的深度模型包括深度信念网络(DBN)和堆栈自动编码器(SAE)模型,以及用于图像处理的卷积神经网络(CNN)和用于序列数据处理的递归神经网络(RNN)。近年来,由Ian Goodfellow首次提出的生成对抗性模型(GAN)受到了广泛的关注。此外,还有许多从经典模型派生的深度学习模型。补充材料S1和图S2中提供了常用深度学习模型体系结构的摘要(https://github.com/xuyungang/ML_meets_omics_supp._notes)。对PubMed发表文章的调查显示,机器学习已被广泛用于各种组学数据,并且在推动对生物学机制的理解和发现新的诊断和治疗方法方面发挥着越来越重要的作用。补充材料S2和图S3对此进行了总结(https://github.com/xuyungang/ML_meets_omics_supp._notes)。下文将具体介绍机器学习的方法,特别是总结它们在从“组学”数据中为生物学和医学生成可靠结果方面的积极应用。
2.基因组学中的机器学习
基因组学是对生物体完整DNA的研究,专注于基因组的结构、功能、进化、基因比对和编辑。新一代基因组技术使生物医学研究人员能够获得大量的基因组数据,理论上可以通过高通量测序获得数十亿个基因组坐标和其他相关数据信息。由于基因组学数据通常是高维和稀疏的,这使得数据分析变得困难,但也为机器学习提供了捕获数据的机会,然后推导出新的生物学假设。随着硬件和算法的不断改进,加上多方面大规模的生物医学数据,机器学习在许多基因组学研究中取得了的成功,包括但不限于基因组的3D重建、表观基因组和染色质状态的建模、基因组注释和转录以及基因组编辑(图2A-D,表S1,http://bib.oxfordjournals.org/)。
【转】西交大长篇系统综述 |机器学习遇上组学:应用与前景(国人佳作) - 图4
图2|机器学习在基因组学中的应用的图形摘要
a机器学习用于重建基因组3D结构。b表观基因组和染色质状态的计算建模。c用于基因组注释和转录调控的机器学习。d机器学习在基因组编辑中的作用。ML:机器学习,TF:转录因子,ROC:受试者工作曲线,PR:精确召回,CRISPR:规律成簇间隔短回文重复序列。
2.1 基因组结构的3D重建
真核基因组的空间结构确保基因组DNA在细胞核内正确折叠并行使许多遗传和生物学功能,例如基因调控、基因表达、转录调控、DNA修复和DNA复制。了解真核基因组的三维(3D)结构对于解释细胞内重要的染色体活动至关重要。在过去的十年中,实验和计算工作一直致力于揭示基因组的3D结构。各种基于染色体构象捕获(3C)的技术(如3C、4C、5C、Hi-C、TCC、ChIA-PET以及后来的单细胞Hi-C)已被开发用于研究3D结构,如染色体的组成、拓扑相关结构域(TAD)和染色质环。尽管高通量实验技术在各种核和细胞的生物学过程中已经证明了基因组结构和功能的相关性,但它们的分辨率不足以解决调控元件之间的相互作用问题、无法研究碱基水平遗传变异对基因组结构的影响或经济高效地应用于大规模样品。因此,研究人员开发了算法(特别是机器学习模型)以补充和推进3D基因组的实验研究(图2A)。用于预测3D基因组结构的机器学习模型有各种不同的计算方法,但可以根据其输入(训练)数据分为四类:(1)单独基因组序列,(2)基于3C的相互作用,(3)来自表观遗传修饰的染色质状态和(4)上述数据的混合。这些方法的目标或输出也不同,包括3D基因组重建、基因组的组成检测、拓扑关联结构域(TAD)鉴定和染色质环(调控元件之间的相互作用)预测。本综述根据训练数据类别将这些机器学习方法分组进行总结。
使用基因组序列来预测染色质相互作用不仅可以用最少的实验数据增加对新细胞类型里基因组功能的理解,还可以使用基因组编辑技术(如CRISPR)预测非编码调控区域对扰动的影响。因此,许多研究一直在利用DNA序列特征来预测染色质的相互作用。Fudenberg等人设计了一种基于CNN的秋田模型,该模型能仅靠DNA序列准确预测基因组折叠,并且可用计算机模拟饱和突变、解释eQTL、预测结构变异和探索物种特异性基因折叠。Cao等人开发了染色质相互作用神经网络(ChINN),仅使用相互作用的开放染色质区域的DNA序列来预测开放染色质区域之间的染色质相互作用。Trieu等人开发了DeepMILO,用深度学习方法预测非编码序列变异对染色质3D结构的影响。
表观基因组修饰和3D基因组相互作用密切相关,但目前它们仍通过不同的技术进行测量。有算法开发用于从表观基因组和染色质状态对3D基因组进行综合解释甚至重建。Zhu等人开发了EpiTensor,用于从组蛋白修饰、染色质可及性和RNA-seq的1D表观基因组构建拓扑结构域(TAD)内的3D空间关联。Fortin等人估计了不同细胞类型中的A/B区室,以及使用几个不同平台的表观遗传数据的远程关联来估计细胞类型之间的变化。Qi等人引入了一种计算模型,用于预测5k碱基分辨率下的染色质3D基因组结构和功能。
基于3C的高通量测序技术能够确定一对(或多对)基因组区域是否在3D物理上非常接近。空间邻近的基因组区域更可能有“相互作用”。在过去十年中已经提出了许多算法用于从3C数据构建染色体和基因组3D结构(图2A-b)。例如,Schwessinger等人开发了基于迁移学习和DNN的DeepC,并使用组织特异性Hi-C数据训练模型。MacKay等人和Oluwadare等人全面回顾了从3C数据重建3D染色体和基因组结构的机器学习方法。
基因组学、表观基因组学、转录组学和染色体构象数据的积累促进了许多机器学习方法,这些方法集成了多个组学数据以进行3D基因组预测。Bkhetan等人开发了3DEpiLoop算法,用于从表观基因组数据和转录因子谱中预测染色质循环相互作用。Whalen等人实施了一种名为TargetFinder的算法,该算法整合了TF、组蛋白标记、DNase-seq、表达和DNA甲基化的数据,以预测基因组中单个启动子-增强子的相互作用。最近,为了精准分析迄今为止仅在极少数人类细胞系中同时可用的表观基因组数据的数量,Li等人开发了DeepTACT,一种有放回抽样(bootstrapping)的深度学习模型,以使用序列特征和染色质可及性信息在单个调节元件水平上预测染色质可及性。
2.2 表观基因组和染色质状态的计算建模
表观基因组包括DNA和组蛋白上的化学修饰,这些修饰独立于DNA序列调节基因组活性。表观基因组的改变可导致染色质结构的变化和基因组功能的变异。表观基因组技术的最新进展使得涉及高通量数据和基于机器学习的生物信息学的研究能够识别易受表观遗传修饰影响的基因组区域,包括DNA甲基化变化(例如CpG)、组蛋白修饰或染色质结构变化(例如核小体定位,图2B)。已经结合表观遗传数据的特征生成、特征选择和机器学习开发了各种算法,包括用主动学习(ACL)来解决表观遗传数据的生成问题、不平衡类学习(ICL)来解决数据中相对较低的表观突变发生率的问题和深度学习(DL)以解决手动定义相关基因组特征的问题(图2B)。
基因组特征可以包括DNA序列和表观遗传成分。许多研究已经将遗传特征(如重复元件、CpG密度、反应元件或特定序列)和表观遗传特征(如DNA甲基化或组蛋白介导的核小体定位和染色质状态)融合到机器学习模型中,用于基因组的功能解释和预测(图2B)。Whitaker等人提出了Epigram根据DNA模序来预测组蛋白修饰和DNA甲基化模式。Lee等人建立了间隙k-mer支持向量机(gkm-SVM)来学习调控元件和调控变异的影响,这些调控因子产生于DNase I超敏位点、独特的组蛋白修饰和转录因子结合位点。Zhou等人开发了一种基于深度学习的算法框架DeepSEA,该框架直接从大规模的染色质分析数据中学习调控序列的编码,从而能够以单核苷酸敏感性预测序列改变的染色质效应。Alipanahi等人引入了Deep-Binding,通过深度学习来预测DNA和RNA结合蛋白的序列特异性。Kelley等人开发了Basset,深度卷积神经网络(CNN),研究人员可以通过该网络对其感兴趣的细胞类型进行单一测序,同时学习该细胞的染色质可及性编码并注释基因组中的每个突变及其对当前可及性和潜在可及性的影响。Kelley等人开发了另一种基于CNN的机器学习系统,仅从DNA序列中预测大型哺乳动物基因组中的细胞类型特异的表观遗传和转录谱。Hoffman等人开发了一种深度学习模型DeepFIGV,仅使用DNA序列作为输入,即可准确预测遗传变异对染色质可及性和组蛋白修饰的影响。Zeng等人开发了CpGenie,这是一种基于序列的框架,它使用深度卷积神经网络(CNN)学习DNA甲基化的调控编码基因,并使用该网络来预测序列变异对近端CpG位点DNA甲基化的影响。机器学习模型也应用于单细胞表观基因组。例如,Angermueller等人开发了DeepCpG,这是一种基于深度神经网络(DNN)的计算方法,用于预测单细胞中的甲基化状态。
3.用于基因组注释和转录调控的机器学习
基因组注释是标记生物体DNA序列并表征其生物学功能的过程。基因组学和早期工作的第一步集中在构建基因组的注释上,为此已经开发了机器学习方法,用于识别基因组元件的主要类别(图2C),例如蛋白质编码基因、非编码RNA(ncRNAs)、microRNA(miRNAs)、转录本的不同剪接亚型、调控元件、蛋白质结合位点/模序和顺式调节结合序列。基因组、转录组和表观组信息的快速积累创造了新的组学研究机会,也为组学信息的整合带来了挑战,即不能仅依靠序列本身来注释基因组。同时,基因组注释的目标从识别不同的基因组部分(例如基因和非编码区域,图2C)到阐明它们的功能(图2C),包括调控元件及其相互作用。例如,DNA元件百科全书(ENCODE)项目代表了以此为目的集体研究。
3.1 从基因组序列中查找基因
随着新的测序技术的出现,大量的基因组序列数据可用于计算机鉴定基因和非编码元件。主要的研究是鉴定来自原核和真核基因组的基因,以及预测真核生物中复杂的外显子-内含子结构(图2C)。Luedi等人根据使用DNA序列作为特征的多种分类算法的预测,鉴定了156个新的人类印记基因。Mark Borodovsky使用长短期记忆(LSTM)的递归神经网络(RNN)来证明深度学习网络在注释基因组序列和在NCBI数据库中评估原核序列不同方法的应用潜力。他后来提出了两种新的基因组注释算法:(1)GeneMarkS2+,PGAP的一部分,PGAP是NCBI开发的原核基因组注释方法,以及(2)真核自训练基因发现模型GeneMark-EP+,在基因组的隐马尔可夫模型(HMM)统计模型的迭代参数化中利用同源蛋白质的足迹寻找基因。
3.2 确定顺式调控元件和反式作用区域
在人类基因组中,大多数DNA序列是非编码区域,其中包含许多顺式调控元件,包括启动子、增强子等。近年来,通过机器学习和深度学习,在识别非编码区域方面取得了许多成就(图2C)。可以仅使用DNA序列或ATAC-seq特征在基因组准确鉴定增强子。此外,在非编码RNA的识别和分类方面取得了良好的效果。然而,传统的神经网络需要大量的训练数据。CNN是深度学习神经网络,已被成功用于学习DNA序列模式,例如DNA和RNA结合蛋白、DNA甲基化或染色质(图2C)。例如,Alipanahi等人构建了一个DeepBind模型来预测DNA和RNA与蛋白结合的特异性序列。使用此模型,即使序列中模式的位置未知,也可以找到新模式。最近,Long等人提出了一种通过整合基因组序列、结构数据和统计学习来预测转录因子结合位点的方法。
3.3 预测增强子-启动子相互作用和基因表达
启动子和增强子是控制基因表达的空间和时间模式的最重要的顺式调控元件。除了鉴定这些调控元件之外,一个主要的挑战是染色体环,通过该环,远端增强子在三维空间中靠近靶基因并作用于目标启动子。这种远程增强子-启动子(E-P)相互作用正在成为组织特异性表达和调控变异的重要决定因素。虽然基于3C的实验技术揭示了染色质相互作用,但它们只能涵盖更高水平的3D基因组结构,如TAD,而不是特定的增强子-启动子相互作用。因此,需要用于预测多个组织或细胞系中增强子和启动子之间相互作用的算法(图2C)。
Roy等人提出了一种基于监督机器学习框架的预测建模方法,名为RIPPLE。RIPPLE使用从5C实验中检测到的相互作用来预测细胞系特异性的远程调控相互作用。后来,Whalen等人提出了TargetFinder,这是一种机器学习方法,可以基于功能基因组数据预测增强子-启动子相互作用,例如来自组蛋白修饰或转录因子的ChIP-seq以及DNaseI超敏位点测序(DNase-seq)。然后,Cao等人提出了一种监督学习方法,该方法通过使用名为JEME的随机森林分类器,将全局和样本特异性表观遗传信息与预测增强子-启动子相互作用相结合。最近,Cao等人受到染色质状态和许多转录因子结合位点只能使用DeepSEA和DeepBind等方法从DNA序列中预测的启发,他们开发了一种算法,染色质相互作用神经网络(ChINN),仅使用开放染色质区域相互作用的DNA序列来预测开放染色质区域之间的染色质相互作用。
3.4 机器学习遗传变异的影响
除了那些相对较大的调控元件外,单核苷酸变异也对基因表达和表型也具有关键影响,尽管它们可能位于非编码区域。全基因组关联研究(GWAS)报告了数十万个与复杂性状相关的变异,包括疾病和病理表型。大多数疾病相关变异存在于非编码DNA中。识别非编码变异的功能效应一直是GWAS之后的主要挑战,机器学习和深度学习在识别非编码变异及其效应方面也起着重要作用。基于SVM的模型可用于致病变异分类,并对变异的致病性进行评分。Schubach等人使用不平衡感知方法来预测常见的疾病相关突变,这明显优于不平衡无感知方法。最近,Zhou等人通过使用深度学习方法开发了基于序列的DeepSEA,该方法可用于预测非编码突变效应。然后,他们构建了一个框架,ExPecto,基于深度学习来识别非编码突变并预测非编码突变对疾病的贡献。这些模型可以准确地预测来自DNA序列的组织特异性突变的转录效应,包括罕见或从未观察到的突变。
4.基因组编辑中的机器学习
在过去的十年中,基因组的研究已经远远超出了确定现有基因组序列和关联修饰的范围,进入了一个前所未有的更具创新性的时代,即基因编辑。基因编辑是根据需要添加或删除特定基因片段或插入、删除或替换特定碱基来设计靶基因的序列或功能。广义上讲,基因编辑还包括表观遗传编辑,这是一种新兴技术,可操控转录因子或染色质修饰来调节靶基因的表达或改变染色质状态。规律成簇间隔短回文重复序列(CRISPR)是最常用的基因编辑系统,由于其在剪切和粘贴基因方面的高精度和灵活性,已应用于靶基因修复和基因表达调控。近年来,基因编辑技术非常流行,不仅在生物学和医学领域,还带来计算挑战。无论是基因编辑还是表观遗传修饰(图2D),CRISPR系统的关键是将编辑复合物准确地引导到靶位,这是由精心设计的小向导RNA(sgRNA)完成的。机器学习已被应用于CRISPR系统:(1)设计sgRNA并根据基因组背景信息预测切割位点,(2)评估不同特征对CRISPR效率和选择性的重要性,以及(3)评估脱靶倾向等(图2D)。所有这些机器学习方法可以分为三类:基于序列比对、基于假设和基于学习的方法。
sgRNA的设计和选择是基因编辑的第一步,也是最重要的一步,它决定了应该在基因组中的什么位置部署“剪刀”,并评估“剪刀”切割基因的有效性。sgRNA的设计还需要对另一面进行系统评估,即脱靶效应,即如果使用它,可能会破坏基因组的其余哪些部分。一些sgRNA几乎可以干扰所有细胞中所有等位靶基因,而其他的则没有显示出明显的活性。科学家可以制定sgRNA排名,以便在靶向切割和脱靶倾向之间进行权衡。目前,有许多通过机器学习或深度学习方法开发的sgRNA设计工具,如SVM模型、CNN模型等,可以帮助研究人员获得有效的sgRNA。DeepCpf1是利用sgRNA序列特征和染色体可及性,基于CNN预测cpf1的sgRNA编辑效率而开发的。DeepCRISPR除了DNA序列特征外,还引入了四个表观遗传特征,并使用自动编码器原理自动提取有效信息。一些模型包含了sgRNA靶向切割和脱靶倾向预测。CNN_std仅使用序列特征来构建使用“异或”编码设计的二维输入矩阵,并利用CNN进行预测。此外,Dimauro等人提出了一个名为CRISPRLearner的模型,用于预测sgRNA靶向敲除活性。Song等人建立了一个基于深度学习的模型,以预测任意目标序列中碱基定向编辑的效率和编辑结果的频率。
除了sgRNA设计之外,另一个活跃的主题是预测编辑的结果,即预测将在特定sgRNA靶向的位点上进行哪些类型的修复。包括插入单个碱基、小片段缺失或称为微同源缺失的较大变化。准确预测修复序列可以使研究人员能够预测更精准的sgRNA,这些RNA将精确复制患者的突变,从而开发出更好的模型来研究遗传疾病。发表在《自然》杂志上的一项研究中,Sherwood及其同事描述了他们如何训练一种名为inDelphi的机器学习算法来预测用Cas9截取的DNA的修复。该算法表明,在超过50%的基因编辑结果中,5-11%的gRNA在人类基因组中诱导了单个可预测的修复基因。另外,Felicity Allen及其同事创建了一种名为FORECasT(Cas9靶标修复事件的有利结果)的算法来做同样的事情。基于41,630个gRNA和修复前后靶位点的序列,该模型表明,大多数修复是基于Cas9切割位点的特定序列进行单碱基插入、小片段缺失或长片段的缺失(微同源介导的缺失)。
5.转录组学中的机器学习
转录组学是对转录组(基因组产生的完整RNA转录本)的研究。随着高通量测序技术的发展,研究人员可以全面快速地从处于特定状态的物种中获取几乎所有的转录序列信息及其在特定组织或器官的表达。然而,对如此大量的转录组测序数据的分析和处理给传统的分析方法带来了挑战。机器学习和深度学习可以处理大规模的高维数据。它已被广泛用于转录组数据分析,以整体方式研究基因表达、功能和结构,然后揭示发育和疾病进展中的特定生物学过程和分子机制(图3和表S2,http://bib.oxfordjournals.org/)。
【转】西交大长篇系统综述 |机器学习遇上组学:应用与前景(国人佳作) - 图5
图3|机器学习在转录组学中的应用
CNN:卷积神经网络,DNN:深度神经网络,GRU:门控循环单元,DRN:深度残差网络,TF:转录因子。
5.1 预测基因表达
基因的表达定义了基因组的哪些部分被转录多少。基于转录本测序(RNA-seq)的基因表达分析已成为转录组学研究的重要组成部分。机器学习在此类数据集上具有很强的非线性模型的分层学习能力,并且在从遗传和表观遗传信息中预测基因表达方面起着重要作用。基于深度学习,Chen等人提出了一种多任务多层反馈神经网络,称为D-GEX,根据标志基因来预测靶基因的表达。组蛋白修饰是影响基因调控的另一个重要因素。从组蛋白修饰信号中预测基因表达,能理解组蛋白修饰在基因调控中的效应。研究人员使用深度卷积神经网络建立了名为DeepChrome的判别模型以预测组蛋白修饰的基因表达。研究发现,深度学习模型在基因表达预测任务中优于支持向量机、随机森林等模型。
5.2 基因剪切的预测和分类
剪接是转录的另一个方面,它定义了真核基因组是如何转录的。可变剪接增加了转录组和蛋白质组的多样性,这是一种遗传和表观遗传调节的mRNA预处理过程。前mRNA的剪接非常准确,异常剪接可导致疾病甚至癌症。许多研究表明,深度学习可以准确预测剪接,并对剪接类型进行分类。Leung等人使用DNN构建了一个模型,从RNA-seq数据中预测单个组织中的剪接模式。此外,研究人员还开发了基于DNN的模型,使用基因组序列和表观遗传特征作为输入以预测不同背景(发育和疾病)中的剪接模式。Jaganathan等人基于深度残差神经网络构建了SpliceAI。该模型使用前mRNA转录本的基因组序列作为输入。此外,其他研究人员已经开发出一种仅使用局部RNA序列的根据内部外显子选择性剪接来定义的剪接分类方法。
5.3 转录因子结合位点的预测
在基因表达中,转录因子(TFs)起着重要作用。转录因子(TF)可以与DNA序列的特定区域结合并调节基因表达。TF结合位点及其相邻突变对表达有很大的影响,并可能引起一些复杂的疾病。分析TF的结合对于进一步研究基因表达具有重要意义。近年来,机器学习,尤其是深度学习方法,在相关领域发挥了很大的作用。由于基于位置权重矩阵(PWM)的模型存在一些问题,例如GC序列偏好。因此基于机器学习和ChIP-seq数据构建了一个模型,以预测影响转录因子结合的调控变异。通过机器学习方法,Sherwood等人设计了一个PIQ模型,可以识别转录因子(TF)结合位点。通过DNaseI超敏反应分析和测序(DNase-seq)实验可以确定超过700个TF结合位点,其准确性与ChIP-seq获得的精度相当。机器学习的应用大大提高了模型的预测性能。此外,深度学习方法可以直接从海量数据中提取特征。基于CNN开发的DeepBind在预测DNA和RNA结合蛋白的序列特异性方面具有更好的性能。然而,CNN训练的模型只关注当前状态,无法捕捉前一状态和未来状态对当前状态的影响,而RNN可以有效地从时序数据中提取特征信息。Shen等人提出了一种基于双向门控循环单元(GRU)网络的KEGRU计算方法。该方法可以从DNA序列中提取特征信息,然后利用特征信息预测TF结合位点。此模型与基于CNN的模型不同,用于处理长度可变的输入序列。此外,已经开发了机器学习模型研究TF与染色质的特异性、活性和相互作用。
5.4 用转录组学进行辅助诊断
诊断是药物治疗的核心部分。医生在获得并解释患者信息后提供诊断结果。但是,这种人工方法非常耗时,并且误诊的可能性很高。随着计算机辅助诊断(CAD)的出现,这些问题得到了显著改善。随后,机器学习算法的快速发展,特别是人工神经网络(ANN),大大提高了诊断的准确性和效率。ANN可以自我学习,记住并预测事件的发展。在疾病分类和诊断方面,依靠概率统计方法和数学模型,ANN具有比传统方法更好的性能。例如,如上所述,卷积神经网络(CNN)特别适用于处理图像数据。此外,机器学习结合基因表达数据,在各种疾病中起到良好的辅助诊断作用。例如,基于SVM开发的工具可以通过挖掘微阵列表达数据来预测肌病亚型。另一种深度学习模型可以基于基因表达数据系统准确地预测药物引起的肝损伤。此外,它还被证明是精神分裂症和帕金森病(PD)等神经系统疾病诊断的辅助工具。目前,已经从转录数据中鉴定出一系列PD基因标志物。此外,大量研究证明,机器学习通过结合基因表达数据,在癌症的辅助诊断中得到了广泛的应用。这些应用包括但不限于癌症分类、预测具有潜在治疗意义的分子亚型、预测胰腺导管癌(PDAC)的预后、肝细胞癌的早期诊断和生存预测、预测癌症复发等。总之,机器学习不仅通过识别医学图像,还通过挖掘和分析基因表达数据来帮助疾病诊断。然而,数据不足仍然是一个常见的绊脚石。小规模数据训练的模型很难推广到其他项目。目前,许多数据库包含观测研究提供的遗传和临床信息。因此,开发新的机器学习方法来整合这种多队列数据是很有价值的。
6.蛋白质组学中的机器学习
蛋白质组学是指研究基因组中表达的所有蛋白质及其特征,主要包括蛋白质结构、蛋白质丰度、蛋白质活性、蛋白质修饰、蛋白质定位、蛋白质相互作用等。自人类基因组计划以来,各种生物医学数据的数量急剧增加。蛋白质组学的传统生化研究方法既耗时又费力。基于机器学习的方法可以有效地处理大量的蛋白质序列。但是,它在很大程度上受到特征提取的影响,而且模型的最大性能是有限的。深度学习可以自动学习和分类抽象特征,开启了蛋白质组学在多领域的研究。本综述总结了机器学习在蛋白质组学的四个主要方面的应用(图4,表S3,http://bib.oxfordjournals.org/)。
【转】西交大长篇系统综述 |机器学习遇上组学:应用与前景(国人佳作) - 图6
图4|蛋白质组学中机器学习方法的总结
PBM:蛋白质结合微阵列,SELEX:指数富集配体系统进化,MS:质谱,LC-MS/MS:液相色谱和串联质谱,SVM:支持向量机。
6.1 生物质谱中的应用
质谱(MS)是蛋白质组学中的一项关键技术,它使用样品离子的质荷比来分析蛋白质的成分和结构。MS仪器发展迅速,但数据处理的方式却没有随之而来,这已成为蛋白质组学研究的瓶颈。机器学习,特别是深度学习,可以解决蛋白质组学数据的高维性和稀疏性。在生物质谱中,机器学习在许多领域都表现出色,例如从头测序、二级肽谱的离子片段预测、肽性质预测、DDI的分析和质谱成像(图4A)。传统上,发现序列未知的新蛋白质的重要方法是从头测序,但准确性仍然不尽如人意。基于机器学习算法,DeepNovo被开发用于对肽进行测序,而且精度远高于从头测序。此外,pDeep算法使用双向长短期记忆递归神经网络来预测二级肽谱。另一方面,在液相色谱-质谱串联分析中,预测肽的保留时间具有很大的价值。DeepRT是基于深度学习开发的。但特征识别的灵敏度并不是特别高。Zohora等人开发了基于卷积神经网络(CNN)的DeepIso,用于提取肽的色谱和质谱图。此外,CNN还用于质谱成像,能对肺癌中鳞状细胞癌和腺癌的进行分类。综上所述,机器学习的应用能提高对肽数据的检索挖掘。机器学习算法可以更准确地预测未知肽段的序列。同时,在蛋白质组学定量和定性过程中,用深度学习提取肽段的质谱和色谱数据具有一定的应用潜力。
6.2 筛查蛋白生物标志物
生物标志物在疾病筛查、监测、诊断、指导分子靶向治疗和评估治疗效果方面发挥着重要作用。假设检验和回归分析等传统方法通常受到分类边界和变量相关性的限制。因此,它不适合现有的生物标志物发现策略。而机器学习方法没有这样的限制。在处理蛋白质生物标志物的筛选任务时,无监督学习方法主要用于分析数据可重复性、检查异常值、结果的可视化并检查标记物分离的结果。监督学习方法的主要功能是评估蛋白质生物标志物组合的分类效果。目前,质谱(MS)和机器学习等蛋白质组学技术的组合已被广泛用于完整的生物标志物筛选(图4B)。An等人使用深度置信网络(DBN)来筛选阿尔茨海默病的蛋白质诊断标志物。他们最终获得的标记物组合包含20种蛋白质,诊断准确率超过90%。他们还发现ACRP30蛋白与阿尔茨海默病有很强的相关性。Yan等人确定了三种关键生物标志物(乳酸脱氢酶、淋巴细胞和高敏感性C反应蛋白)的水平,用于识别有新型冠状病毒(COVID-19)风险的患者。然后,他们建立了一个机器学习模型,可以至少提前10天预测COVID-19患者的个体死亡率。机器学习已被广泛用于评估蛋白质生物标志物分类的效果。但仍存在一些挑战,如过拟合、解释性差、计算成本高、模型选择难等。但这并不妨碍机器学习在生物蛋白生物标志物筛选中具有重要的应用前景。
6.3 预测蛋白的基因结合位点
结合核酸的蛋白在各种生物过程中都具有重要意义。核酸结合蛋白的鉴定主要通过生化和标记技术进行。但识别的准确性和规模仍然有一定的局限性,而且既耗时又昂贵。最近,一些研究人员使用蛋白质特性(例如结构域序列)来预测核酸结合蛋白,但没有达到预期的准确性。目前,可以通过一些高通量测量获得大规模数据集,例如蛋白质结合微阵列(PBM)、指数富集(SELEX)和CHIP对配体进行高通量系统进化。随着高通量测序技术的应用,机器学习在预测核酸结合蛋白方面比其他现有方法更准确(图4C)。目前,已经进行了大量的计算研究,包括DNA结合结构域/蛋白质识别、DNA模序对的发现,蛋白质-DNA或蛋白-RNA对等。Alipanahi等人开发了基于DeepBind的深度学习来预测蛋白质序列的核酸结合特性。同时,另一项研究发现,支持向量机可以准确地识别与核酸结合的残基,这有助于研究蛋白与核酸之间的相互作用。然而,DNA和RNA结合残基之间存在一个常见的交叉预测问题。未来需要做出更多努力来减少交叉预测,机器学习肯定会为此提供强有力的支持。
6.4 预测蛋白之间的相互作用
近年来,蛋白质序列数据以惊人的速度积累,这有利于蛋白质-蛋白质相互作用(PPIs)检测。PPI将有助于更好地了解蛋白质的功能和三维结构。PPI还为解释一系列生理活动提供了有用的提示,如基因复制、转录、翻译、信号转导、细胞周期调控、免疫应答等。然而,在生物体中获取所有可能的PPI相关数据仍然很困难。一些公共数据库,如IntAct和BioGRID可用于查询PPI,但大多数数据仍然不完整。此外,PPI网络是动态的,实验PPI数据缺乏组织特异性或特定条件(如健康和疾病状态)的信息,这使得PPI相关研究更加复杂。最近,大多数研究人员认为,使用计算方法来研究蛋白质-蛋白质相互作用非常有用。结合实验方法,通过机器学习可以发现PPI。不同的数据通常需要不同的机器学习算法(图4D)。两种流行的用于PPI预测的机器学习方法是随机森林和支持向量机,而贝叶斯概率主要用于对高通量PPI数据集的置信度进行评分。基于机器学习,开发了分层统计模型(HSM)来预测PPI,可以准确预测肽结合域(PBD)的亲和力(多个蛋白质家族之间的肽相互作用)。此外,深度学习也已广泛应用于PPI预测。例如,基于结构域的集成学习方法用DNN预测PPI。Hashemifar等人提出了一种深度学习模型DPPI,它能通过序列信息对PPI进行建模和预测。
此外,蛋白质翻译后修饰(PTM)在调节蛋白质功能中起重要作用。PTM一般是指共价结合在氨基酸残基上的化学基团或蛋白质等各种功能基团。作为调节生物功能的重要机制,识别并理解PTMs在生物学和疾病研究中至关重要。目前,已经开发了大量的机器学习方法用于PTM位点预测。基于SVM,提出Musite用于预测蛋白质磷酸化位点。它使用K值近邻(KNN)评分、无序评分和氨基酸频率作为特征。此外,GlycoEP可以通过SVM预测N-、O-和C-偶联的糖基化位点。其他方法,如ModPred和DeepPhos,在预测PTM位点方面也表现良好。此外,还开发了一些数据库来注释PTM位点,例如dbPTM、AWESOME等。但是,大多数方法不支持大规模的批量预测。Wang等人构建了一个新的网络服务器MusiteDeep,它采用原始蛋白质序列作为输入,并使用CNN进行PTM位点预测。它可以同时提供多个PTM的预测和可视化,在预测准确性和速度方面有一些优势,但并非所有检测到的修饰都有功能。因此,研究人员很难确定哪些修饰应该用实验来验证。最近提出的SAPH-ire TFx算法能从大规模数据集中预测功能性PTM位点。它对确定具有生物学意义的PTM具有一定的指导意义。
7.代谢组学中的机器学习
代谢组学模仿基因组学和蛋白质组学的研究思路,定量分析生物体中所有代谢物以此发现代谢物与生理和病理变化之间关系,被认为是诊断高异质性疾病的新技术。通过质谱、色谱和核磁共振获得的大规模代谢组学数据的稀疏性给传统研究方法带来巨大挑战。机器学习算法适用于处理此类数据,并引起了人们的关注。各种机器学习算法用于分析解释这些大规模代谢组学数据(图5,表S4,http://bib.oxfordjournals.org/)。目前,机器学习在一系列代谢组学研究中取得了显著成果,如数据处理、代谢表型分层、代谢建模等。
【转】西交大长篇系统综述 |机器学习遇上组学:应用与前景(国人佳作) - 图7
图5|代谢组学中的机器学习
LC-MS:液相色谱-质谱,CE-MS:毛细管电泳-质谱,GC-MS:气相色谱-质谱,NMR:核磁共振,SVM:支持向量机,ML:机器学习。
7.1 数据处理和分析
随着机器学习的快速发展和应用,代谢组学的数据处理和分析得到了进一步的改进。由机器学习算法训练的模型用于模式识别(有时称为多变量分类)。长期以来,偏最小二乘分析(PLS-DA)、极限学习、ANN、SVM等机器学习方法已应用于代谢组学数据分类。其中,PLS-DA一直占主导地位。但目前的研究表明,SVM在代谢组学数据分类中的应用已经超过了PLS-DA。SVM具有更高的预测准确性和分类准确性。与传统的基于回归的方法相比,ANN开发的深度学习主要用于估计特定峰值的加权检测概率,并决定是否将其从最终数据集中排除。研究表明,深度学习还可以消除假阳性峰值。例如,DNN模型可以去除90%的假阳性峰值(噪声),而不会降低真阳性率。在代谢组学研究中,串联质谱(MS/MS)通常用于鉴定“未知”代谢物(即其参考谱图和/或结构信息不可用的代谢物)。然而,由于可用的MS/MS参考谱图数量有限,仍然存在一些挑战。基于DNN的开源框架DeepMASS可有效识别“未知”代谢物。此外,代谢组学数据处理需要足够的样品进行质控。数据处理和仪器性能的质控(QC/QA)需要仔细检查。通常,深度学习方法可用于改进和自动化代谢组学分析的QC/QA步骤。DNN可用于检测大规模非靶向实验产生的稀疏MS。然后,数据将被归因并填补缺失值。但是,其准确性尚未得到评估,需要进一步研究。
7.2 代谢表型的分层
代谢表型是指不同个体的代谢过程和水平的特征。它可以通过代谢物的存在、代谢物的含量、代谢物与代谢总量之间的比率来描述。该概念广泛用于药理代谢组学。机器学习,特别是深度学习,在代谢组学研究中表现优异。它可以捕获代谢组学数据中的复杂代谢特征,从而推断受影响的代谢通路。Inglese等人从人类结直肠癌活检样本中提取了基于MS的成像数据集。然后,他们使用DNN结合参数化t分布随机邻域嵌入分析来揭示癌症的代谢异质性。此外,一些研究表明,深度学习框架可用于根据代谢组学对乳腺癌的雌激素受体(ER)状态进行分类。事实证明,预测准确率高于其他机器学习方法,表明深度学习能更好的揭示疾病的生物学原理。最近,一种基于DNN的新方法将全面的监督分类和回归技术用于代谢表型分层和代谢物选择。同样,该模型具有很高的分类准确性。但其分类性能随样本数量呈线性变化。有科学家已经集成了各种DNN分类器和统计方法,开发了一个集成DNN(EDNN)算法来改善分类和回归性能。
7.3 在基因组构建代谢模型
机器学习在代谢建模中也取得了良好的发展和应用。主要用于建模过程中模型参数的确定、代谢网络分析及模型应用。基因组代谢模型(GEM)是一种数学模型,包括特定生物体或细胞基因组的代谢反应以及酶和基因的关联。它为生物系统中的代谢通量建模提供了一个完整的平台,已被广泛用于模拟人体的新陈代谢。建模过程使用基于约束的定量建模方法。这种方法将生化和遗传信息结合在一个计算框架中。在建模过程中,机器学习通常用于优化参数并测试不同的输入条件。此外,越来越多的研究表明,将机器学习与GSM相结合可以提高生物标志物(蛋白质/酶和代谢物等)的识别能力。该组合也可用于代谢物的定量、评估代谢物的分泌、预测代谢基因和评估药物疗效。然而,机器学习在代谢组学中的应用远不止于此,还包括确定代谢相关药物副作用的预测因子、基于机器学习的预测产生小分子的碰撞横截面(CCS)值以及识别疾病的早期代谢标志物。机器学习方法在代谢组学中具有巨大的潜力。它可以捕获数据中复杂的代谢特征,并完成分析和解释。然而,由于实验方法的局限性、样本量小、缺乏可解释性以及缺乏足够的参考指标,训练和验证数据仍然具有很大挑战。
8.单细胞组学中的机器学习
单细胞组学是在单细胞水平上研究基因组、转录组、蛋白质组和代谢组。通过单细胞水平的研究,研究人员可以更好地了解生物学过程和病理机制,如干细胞的分化、免疫细胞的功能、神经细胞的发育和癌细胞病理学。此外,精准医学研究最近已成为全球重点研究项目。单细胞研究的重点是解决生物异质性问题。因此可以在一定程度上指导疾病的治疗、防控,特别是一些危重和罕见的疾病。因此,对精准医疗发展的需求也需要加快单细胞技术的研发。作为单细胞组学研究的关键技术之一,单细胞转录组测序目前应用最为广泛。自Tang等人于2009年完成第一个单细胞RNA测序(scRNA-seq)工作以来,scRNA-seq一直在不断改进。近年来,随着一些大型商业平台的出现,scRNA-seq已经很容易实现。它已成为全细胞表达分析的常用方法。但在scRNA-seq数据的解释上还有很大的发展空间。目前,机器学习被广泛用于处理scRNA-seq数据。例如,它可以去噪、插补缺失值和批量校正。此外,机器学习还适用于细胞分类、轨迹推理等方面(图6,表S5,http://bib.oxfordjournals.org/)。
【转】西交大长篇系统综述 |机器学习遇上组学:应用与前景(国人佳作) - 图8
图6|单细胞组学中的机器学习
a基于自动编码器的scRNA-seq去噪和批量校正机器学习方法;b插补缺失值的各种机器学习方法,如autoencoder、GANs等;c机器学习降维和聚类;d用于伪时间推理和轨迹分析的机器学习。
8.1 插补缺失值和批处理效应校正
单细胞RNA测序(scRNA-seq)可以对数以万计的单细胞转录本进行同步研究。因此,研究人员可以在单细胞水平上研究基因表达模式,从而更准确地研究细胞异质性。然而,由于当前技术的局限性,scRNA-seq数据中通常存在大量噪声。在挖掘这些数据之前,通常需要去噪。机器学习方法在去噪方面表现良好(图6A)。目前,已经开发了许多机器学习方法来清洗scRNA-seq数据,而且更多的方法正在开发中。除去除噪声外,scRNA-seq数据通常还包含过多的零,由于RNA捕获率低,这些零大多是“假”零。这种情况通常被称为缺失值。另一个不可避免的混杂因素是由于样品之间技术操作的差异而产生的批次效应,例如测序仪的类型不同,甚至是样品实验操作的技术人员不同。在处理scRNA-seq数据时,缺失值和批处理效应会给下游分析带来很大的障碍。因此,在scRNA-seq数据分析中,插补缺失值和批次效应校正是必不可少的(图6A和B)。传统方法,如scImpute和svaseq,在缺失值插补和批量效应校正方面是有效的。近年来,深度学习和机器学习算法已被有效地用于缺失值插补和批处理效应校正,具有更好的性能(图6B)。Eraslan等人开发了一种基于深度学习的深度计数自动编码器(DCA)。DCA实现了一系列scRNA序列特异性噪声模型,以求解scRNA-seq数据中的缺失值。LIGER是一种用于联合分析多个scRNA-seq数据集的集成算法,可以有效消除批次效应。最近,本综述的研究小组开发了一种基于生成对抗网络(GAN)的插补方法,命名为scIGAN。将每个细胞的转录组重塑为灰色图像,并将缺失值插补转换为内嵌成像。scIGAN对缺失值插补有效,并增强了各种下游分析能力。ScIGAN对于低表达量基因和/或细胞间差异小的小型数据集是稳健的。研究者以多种方式证明了算法的可靠性,scIGAN不仅代表了GAN在组学数据中的应用,而且还是针对scRNA-seq数据的有竞争力的插补方法。目前,有多种方法可用于缺失值插补和批量效应校正。然而,由于scRNA-seq数据集的不断扩展,许多数据集无法提供完整的信息。此外,在校正批处理效应时,可能会过度校正,从而导致真正的底层数据结构丢失。因此,期望更有效和更准确的归因缺失值和批量效应校正方法。
8.2 细胞聚类和轨迹推理
对scRNA-seq数据的分析可以大致分为细胞水平和基因水平,其中,核心步骤是将细胞聚类来鉴定细胞类型。如上所述,许多机器学习算法在scRNA-seq数据的预处理中表现良好。同时,它们在下游分析中也很受欢迎。许多研究人员使用机器学习来实现细胞聚类(图6C)和轨迹推理(图6D)。Abdelaal等人使用27个scRNA-seq公共数据集评估了22个分类器,这些数据集包含不同的大小、复杂性、测序技术和物种。他们发现大多数分类器在各种数据集上表现良好。特别是SVM分类器总体表现最佳。此外,一些研究人员使用标记的单细胞数据集来训练ANN模型。然后,他们提出了一个监督分类器的技术框架,能够将细胞进行良好的聚类。此外,聚类和去除批次效应是相互关联的。理想的去除批次效应有利于获得更好的细胞分类。基于DNN,提出一种无监督算法DESC。与一系列先进的scRNA-seq分析方法相比,如Seurat3.0、scVI、BERMUDA等,DESC可以去除复杂的批次效应并保留细胞群中的生物变异。
细胞类型鉴定后,轨迹推断将帮助研究不同细胞的动态分化过程。轨迹推断是通过数据挖掘出细胞的连续状态,从而计算和推断细胞的发育轨迹。它为研究细胞动力学过程(如细胞周期、细胞分化和细胞活性)提供了新的机会。在过去的几年中,基于不同的算法开发了大量轨迹推理方法,例如Monocle、Waterfall、CellTree、scTDA和URD。可以根据数据的特征,如数据集的大小和拓扑轨迹,选择最合适的轨迹推理方法。此外,现有的这些方法具有高度互补性,可以使用多种方法来检验假设的轨迹和进行相关的下游分析。然而,大多数方法经常低估或高估底层拓扑的复杂性。最近,在预处理后的数据中使用机器学习的轨迹推理取得了良好的效果(图6D)。结合潜在的分层混合模型和变量自动编码器,提出了一种概率方法VITAE(轨迹的自编码变量推理),从后验概率近似推断轨迹。该模型可以针对混杂协变量进行调整,以集成多个数据集。
除了处理和分析单细胞转录组测序数据外,机器学习还可以与单细胞质谱相结合。它可以有效地预测细胞表型,例如耐药癌细胞的表型。此外,机器学习在流式成像技术和微流体芯片方面也得到了很好的发展。机器学习与单细胞组学研究的结合可以提供更全面、更准确的生理和病理机制。可以预见,这将推动精准医疗的蓬勃发展。
9.放射组学中的机器学习
放射组学是指从计算机断层扫描(CT)、磁共振成像(MRI)和正电子发射断层扫描(PET)等放射成像技术中高通量采集大量医学图像。随着医疗和信息技术的不断进步,各种医疗数据也在迅速积累。特别是医学图像的输出非常多。图像数据包含大量潜在反映人类健康的信息。但手动分析和处理这些数据效率低下,且容易受到主观因素的干扰。具有强大功能的机器学习可以有效地消除这些缺点。它可以提取更高级的特征,同时消除主观因素的干扰。深度学习方法,特别是卷积神经网络(CNN),显示出对图像数据的特殊能力。目前,机器学习算法与医学图像(如CT和PET)相结合,已被广泛用于医学图像,如疾病诊断、疾病分类和鉴别诊断(图7,表S6,http://bib.oxfordjournals.org/)。
【转】西交大长篇系统综述 |机器学习遇上组学:应用与前景(国人佳作) - 图9
图7|放射组学中的机器学习
CT:计算机断层扫描; PET:正电子发射断层扫描; SAE:堆栈式自动编码器; CNN:卷积神经网络; DL:深度学习。
9.1 疾病的诊断和分类
机器学习算法可以从医学图像中提取与疾病诊断相关的特征。然后结合临床知识,可以获得更准确的疾病诊断或分类。这也大大减轻了医务人员的负担。如今,机器学习可以解释各种医学图像,在各种疾病的诊断和分类中表现了出色的性能。例如,堆栈式自动编码器(SAE)结合超声图像和CT图像可以帮助诊断乳腺疾病和肺结节。其他研究表明,深度学习方法在肝纤维化的非侵入性诊断方面取得了非常有效的临床进展。Yasaka等人构建了一个基于CNN的模型,通过钆塞剂增强的肝胆期磁共振成像(MRI)来诊断肝纤维化。而且对不同阶段肝纤维化的诊断准确率非常高。
而且,随着神经影像学技术的飞速发展,研究人员获得了大量的多模态神经影像学数据。机器学习算法可以对阿尔茨海默病(AD)进行早期诊断和自动分类。例如,基于CNN设计了自动图像解释系统,预测轻度认知障碍(MCI)患者向AD转化的准确率达到84.2%,优于传统的基于特征的定量方法。通过结合多种算法开发的一些多种模型的深度学习方法可以进一步提高准确性。
最近,机器学习方法与放射性数据相结合,可以实现对COVID-19的检测。基于机器学习的分类器通过胸部X线片在区分COVID-19和正常对照方面实现了高精度和高灵敏度。此外,Li等人建立了一个深度学习的三维模型,用于从胸部CT图像中检测COVID-19。该模型从CT图像中提取视觉特征,以高精度检测COVID-19。机器学习,尤其是深度学习算法,在识别医学图像方面非常有效。但与此同时,在训练这些模型时,经常会遇到缺乏大型训练数据集的问题。随着越来越多的公共数据集可用,这种情况将得到改善。
9.2 识别病变
在医学诊断中,传统的病变识别方法,如小波变换,具有较低的准确性。与传统的图像识别方法相比,机器学习可以挖掘图像中的非线性关系,提高特征提取的效率。因此,机器学习可以大大提高病变识别的效率和准确性。它在各种疾病中表现良好。例如,基于CNN构建了乳腺病变识别工具。另一项研究证明,深度学习模型与腹部CT图像相结合,可以自动识别肾囊肿。深度学习算法也用于学习重要的生理特征,从而提高亨廷顿病变的识别率。此外,Esteva等人用129,450张临床图像训练了CNN模型,以检测皮肤病变。然后他们将结果与皮肤科医生的结论进行了比较。与上述一致,CNN模型在皮肤癌分类方面表现优于皮肤科医生。除了简单的识别之外,还可以通过机器学习模型提前预测异常病变。这将有效地防止病变的发生。例如,通过CNN模型解释视网膜图像可以准确预测糖尿病视网膜病变和相关眼病。
此外,在放射组学中,机器学习还广泛用于图像预处理,如图像匹配和分割等。目前,用于处理医学图像的深度学习方法的主要挑战不是图像数据的可用性,而是获取这些图像的相关注释。传统上,放射科医生或病理学家等专业人员按特定任务注释图像数据,但这太费力了。随着结构化报告的引入,它得到了改进。但是,标记足够大的数据集仍需要花费大量时间。此外,标签噪声也有很大的限制,因为需要将这种不确定性直接纳入损失函数,但这仍然是一个挑战。
10.多组学中的机器学习
多组学分析是对不同组学来源的数据进行归一化和比较,以充分解释生物学过程。随着高通量技术的发展和新技术的出现,数据的积累不断增加。获得可靠和稳定的组学数据变得更加容易,例如基因组、转录组和蛋白质组。然而,单个组学数据的解释有时无法深入解释复杂的生物学现象。很难满足日益增长的研究期望。通过整合多个组学数据,这些来自不同分子水平的数据可以相互验证。既有利于相互补充,更有利于对生物系统的全面了解。随着大量生物医学数据的积累和多组学的发展,必然会给研究带来巨大的收益。但它也为开发适合多组学数据综合分析的新算法带来了挑战和机遇。例如,一些数据集缺少大量的有意义的数值,这阻碍了多个数据集的集成。此外,由于计算和存储限制,标准集成框架可能不适合大规模的多项分析。机器学习,尤其是深度学习,使多组学的集成成为可能。它可以有效地解决诸如“维数灾难”、缺失数据、大数据可扩展性、类别不平衡等问题(图8,表S7,http://bib.oxfordjournals.org/)。Argelaguet等人提出了多目标因子分析(MOFA),它可以发现多组数据中变化的主要来源。该模型的输出可用于一系列下游分析,包括异常样本的识别和缺失值的估计,以及低维空间样本的可视化、聚类和分类。
【转】西交大长篇系统综述 |机器学习遇上组学:应用与前景(国人佳作) - 图10
图8|多组学中的机器学习。
ML,机器学习; DL,深度学习。

此外,通过机器学习算法对多个组学数据和临床数据进行综合分析,成为精准医学和生物医学的关键。多组学数据的整合有利于对临床发病机制、疾病靶点的识别、早期诊断和筛选生物标志物进行更系统的研究(图8)。因此,对个体化治疗和用药指导具有重要意义。霍德利等人设计了一种基于机器学习的集成聚类方法。他们使用蛋白质组学平台和5个全基因组平台分析了3,527个样本(12种癌症类型)。然后,构建了一种新的肿瘤类型分类模型。它可以提高临床结果预测的准确性。此外,基于随机森林训练了一个分类器。它可以根据代谢物和蛋白质的分子特征对严重的COVID-19病例进行分类。此外,该模型可以在出现严重症状之前识别出重症患者,从而大大降低死亡率。
11.挑战与展望
综上所述,现代高通量生物技术的发展和人工智能的复兴为组学和机器学习的交叉研究带来了巨大的机遇。然而,同样有需要克服的巨大挑战。由于下一代机器学习方法(如深度学习)需要大量数据,因此这些工作最关键和最核心的是需要许多大型数据集。虽然正处于大数据时代,但在现实世界中有很多小样本由于数据集太小而无法应用深度学习算法。
尽管如此,仍有许多选择可以应对这一挑战。在不同的生物组织层面上收集不同的组学数据,捕获生物系统不同方面的成千上万的变量。单组学可能不是大数据,但是不管数据大小,多个组学的组合将扩大数据类型的规模。因此,首要选择是收集和整合多个组学数据。一方面,如果没有生物技术的创新,同时收集多种组学数据可能过于昂贵。因此需要考虑补充此类数据的替代方案。增加利用成像数据来表征细胞和组织的形态学或表型变化是一种有吸引力的可能性,因为许多深度学习算法已经成功地将成像数据应用于医学诊断。一个蓬勃发展的例子是基因组学与图像的整合。通过为更多细胞和组织创建成像图谱,这些细胞和组织报告了细胞对各种治疗或环境扰动的反应。
另一方面,除了生成更多数据之外,还有算法解决方案。一种选择是开发新一代机器学习算法,专门用于处理和整合单独的小型组学数据集,例如使用串联,基于模型或变换的方法进行数据集成,或者将深度学习与逻辑推理相结合,以促进深度学习方法能够像人类这样通过小样本进行有效学习。另一种可能性是使用真实数据的属性生成计算机数据。对于图像分析,这通常使用生成对抗网络(GAN)来完成,这些网络学习创建类似于训练数据的数据集。GAN也已扩展到组学数据集,包括转录组学和单一组学,其中模拟计算机数据以增强真实数据。因此,需要开发和改进新的方法,以便在计算机中生成更多种类的组学数据集。
另一个不可避免的挑战来自大多数下一代机器学习模型的“黑匣子”性质,特别是对于深度学习。通常很难从生物学的角度解释给定模型的输出,从而限制了模型对生物学机制的解释和在临床的应用。对模型特征的解释是更高级的机器学习方法(如DNN)中的一个挑战,特别注意需要解释特定模型与输入特征的关系。迫切需要开发一种将深度学习的“黑匣子”转化为“白匣子”的方法,这些“白匣子”可以从生物学的角度打开并进行有意义的解释。
尽管机器学习和组学之间的相遇在很大程度上推进了生物学发现和算法的发展,但要完全利用组学,还有很长的路要走。机器学习本身也远未充分发挥其在组学研究中的潜力。尽管如此,在应用机器学习方法以更好地理解组学水平的生物系统方面,正在进行的和新兴的发展使科学家能够比以往任何时候都更期待生物学和医学研究的令人兴奋的未来。
原文链接:
https://doi.org/10.1093/bib/bbab460
—————微科盟更多推荐—————
长篇系统综述(IF:17.970) |非标记视觉蛋白质组学:结构生物学中基于MS和EM方法的联合使用
综述(IF:17.970)|纳米孔测序技术准备好迎接蛋白质组学挑战了吗?(Molecular Cell)

如果需要原文pdf,请扫描文末二维码领取
【转】西交大长篇系统综述 |机器学习遇上组学:应用与前景(国人佳作) - 图11
【转】西交大长篇系统综述 |机器学习遇上组学:应用与前景(国人佳作) - 图12
蛋白质组长期接受科研文章/经验投稿,期待与您交流更多蛋白质组学问题
(联系多组学老师即可投稿&申请入群)
【转】西交大长篇系统综述 |机器学习遇上组学:应用与前景(国人佳作) - 图13
请关注下方公众号
了解更多蛋白质组知识
【转】西交大长篇系统综述 |机器学习遇上组学:应用与前景(国人佳作) - 图14
蛋白质组,专注蛋白质组学
《蛋白质组》是微科盟旗下专注于学术知识免费分享平台,内容主要包括分享蛋白组学最新文献,新闻,干货知识,视频课程和学术直播讲座。
也严禁他人将本公众号的内容用于商业运营。
蛋白质组仅用于学术成果分享与交流,不涉及商业利益。
【转】西交大长篇系统综述 |机器学习遇上组学:应用与前景(国人佳作) - 图15
蛋白质组
分享蛋白质组最新文献,新闻,干货知识,视频课程和学术直播讲座
245篇原创内容
公众号