摘要
背景
人们普遍认为,长非编码RNA(lncRNAs)在人类疾病的发生和发展中发挥着重要作用。许多关联预测模型已经被提出,用于预测lncRNA的功能和识别潜在的lncRNA与疾病的关联。然而,在这些模型中,很少有人尝试测量lncRNA功能相似性,而这是关联预测模型的重要组成部分。
结果
在本研究中,我们提出了一种基于改进的疾病语义相似性方法的lncRNA功能相似性计算模型,简称IDSSIM,其亮点是在语义值计算中引入了信息内容贡献因子,以兼顾疾病定向无环图的层次结构和疾病的特殊性。IDSSIM和3个最先进的模型,即LNCSIM1、LNCSIM2和ILNCSIM,将其疾病语义相似度矩阵和lncRNA功能相似度矩阵,以及来自lncRNADisease数据库或MNDR数据库的人类lncRNA-疾病关联的相应矩阵,应用到关联预测方法WKNKN中,进行lncRNA-疾病关联预测。此外,还进行了乳腺癌和腺癌的病例研究,以验证IDSSIM的有效性。
结论
结果表明,从ROC曲线和AUC值来看,IDSSIM优于比较模型,能有效提高疾病语义相似性的准确性,从而提高IDSSIM-WKNKN模型的关联预测能力。从案例研究来看,IDSSIM预测的大部分潜在疾病相关lncRNA可以被数据库和文献证实,这意味着IDSSIM可以作为预测lncRNA功能、识别潜在lncRNA与疾病关联、预筛选候选lncRNA进行生物实验的一个有前景的工具。IDSSIM代码、所有实验数据和预测结果可在网上查询,网址为https://github.com/CDMB-lab/IDSSIM。
