科学家找到深度学习基因组学应用的一顶“黑帽子”
科学家找到深度学习基因组学应用的一顶“黑帽子”
DARTS 的基本框架
研究人员首次将深度学习与贝叶斯假设检验结合,利用深度学习强化RNA可变剪接分析的准确性。
■本报记者 赵广立
在生命科研领域,常有人说深度学习的基因组学应用好比是“一个盲人在一间黑暗的房子里寻找一顶并不存在的黑色帽子”。言下之意,是遗憾深度学习的基因组学应用并没有给人们带来太多惊喜。不过,近日宾夕法尼亚大学和费城儿童医院教授邢毅团队的一项研究,找到了这样一顶“黑帽子”。
这项发表在《自然—方法》上的论文成果,提出了一种新的计算框架——DARTS(“利用深度学习强化对RNA-seq的可变剪接分析”英文的首字母缩写)。该计算框架首次将深度学习与贝叶斯假设检验结合,用于RNA可变剪接分析。这种结合使得它即使对于测序深度不那么高的样品,也能有效提高RNA-seq定量差异剪接的准确度。
清华大学生命科学学院教授张强锋点评道:“DARTS综合了深度学习和贝叶斯假设检验统计模型的优点,为那些低测序深度的数据提供了更好的做可变剪接分析的手段,拓展了传统RNA-seq可变剪接分析的敏感度和准确度。”
计算基因组学中
一个广受关注的问题
邢毅等人在上述论文中指出,目前,RNA-seq技术是研究RNA剪接最常用的实验手段。然而,RNA-seq技术虽然能较好地定量基因表达的结果,但对于差异剪接分析来说,它依赖于更高的测序深度。而且即便如此,现有的计算方法还不能较准确地定量低表达基因的剪接变化。因此,为了提高剪接定量的准确性,急需引入新的计算分析方法。
“可变剪接现象从20世纪70年代被发现后,其基本的科学问题聚焦为可变剪接位点发现、差异分析、调控元件和网络的发现和构建。RNA-seq 技术的发明,使得系统、定量的可变剪接差异分析成为可能。”张强锋介绍说,大量测序数据的可变剪接差异分析需要优秀的统计模型和计算工具,因此一直是一个需要高度技巧的生物信息学研究课题。
据张强锋介绍,邢毅研究组在针对大量测序数据的可变剪接差异分析的计算分析领域深耕多年,已经贡献了多个有影响力的算法和计算工具。该团队针对高通量RNA-seq数据开发出的用于差异剪接分析的rMATS等软件,对于测序较深、质量较好的数据集都能取得不错的结果,已在全世界范围内被广泛下载使用。
然而,由于成本等原因,大量RNA-seq 测序实验设计的测序深度较浅。对于这些数据集,能利用来做差异分析的可变剪接事件非常有限。
美国卡耐基梅隆大学计算机学院教授马坚也表示,在基因组学中,确实有很多类似的问题——如何在现有数据上对特定的基因组标注(譬如染色质结构、转录因子结合)训练一个机器学习模型并在全新的细胞系中有效预测,已经成为一个计算基因组学中广泛关注的问题。“DARTS崭新的整体设计理念值得很多其他类似的问题借鉴。”
DARTS计算框架
给出问题答案
据邢毅研究组这篇发表在《自然—方法》上的论文介绍,DARTS由两部分构成:深度神经网络模块(DNN)和贝叶斯推断模块(BHT)。其中,DNN基于顺式序列特征和样品特异的RNA结合蛋白表达水平特征来预测差异剪接的结果;而BHT则通过整合实验样品测序数据本身和基于深度神经网络的先验概率来推断差异剪接的结果。