生物工程、机器学习、图神经网络、监督训练

简介

抗生素的发现是现代医学的基石之一。传统上,抗生素的研发是通过筛选抗菌性的微生物次级代谢物来进行,包括β-内酰胺、氨基糖苷、多粘菌素和糖肽等几大类抗生素都是这样被发现的。然而当前的研发速度已经有所减慢,同时全球性的抗生素耐药问题使得新的有效抗生素的诞生更为困难。从自然化合物中筛选出常常只是重复相同的发现,调整现有抗生素的结构产生的失败率过高,而从化学文库中大范围的筛选则面临成本的化合物多样性的双重限制。近年来,人们提出了将结构分析和筛选相结合的思路,利用机器学习算法从分子性质中预测具有潜在抗菌性能的化合物,为抗生素的发现开辟了新的道路。

2020年2月20日,来自MIT的James Collins和Regina Barzilay在Cell发表题为A Deep Learning Approach to Antibiotic Discovery的文章。他们基于已知化合物训练深度神经网络,然后在Drug Repurposing Hub上预测,发现了一种具有广谱抗菌效应的新型抗生素Halicin。

方法

整体流程

该研究的流程分为5步:

针对大肠杆菌选取了2335个已知分子作为训练集,这些化合物对于大肠杆菌的抑制效果均为已知。以80%生长抑制为标准,将这些化合物的抑菌效果二值化。
训练二分类模型,使用有方向的消息传递神经网络(directed-message passing neural network,DMPNN),输入为化合物的分子特征,输出则为该化合物可能抑菌的概率。

(输入的分子特征)
集成了20个训练好的网络应用于Drug Repurposing Hub库,包含6111个分子。得到每个分子对于大肠杆菌抑制效果的预测评分(0-1之间的数)。
按预测评分排位,剔除一些与训练集结构相似的化合物,进一步通过实验筛选最后得到Halicin。
后续该算法还被应用于包含1.07亿分子的ZINC15数据库,又发现了几种与已知抗生素结构差异较大并且效果不错的化合物。