生命科学进化带来的思考(3)
高通量技术的发展产生了大量与基因、蛋白质和代谢相关的生物组学数据。从这些多源异构的生物组学数据中发现和提炼与疾病相关的信息,需要借助特征衍生的方法获取具有高区分性的特征。目前常用的特征衍生方法主要是对现有特征进行线性或非线性的变换,如四则运算特征衍生、交叉组合特征衍生、分组统计特征衍生等。然而,在特征衍生的过程中往往会产生大量无效或者低效的特征。如果把这些冗余特征带入模型中,会形成维度灾难,使建模工作无法在合理时间内有效完成,且冗余信息往往会造成干扰,导致真正有效的信息被掩盖,模型预测效能降低。通过模式识别中的特征选择技术,对高维生物组学数据中蕴藏的重要信息进行提取、筛选、识别和分类,也是生物组学数据整合分析的关键步骤。编码器接受原始特征输入,将原始特征转换成低维的新特征,解码器接受新特征并将新特征升维至与原始数据相同的维度,以达到有效数据降维和分子特征提取的目的。
第二步是选择模型,把降维后的数据带入模型,针对不同的任务选择不同模型。
不同模型对于输入数据的要求不同,因此需要在输入数据之前对数据进行预处理,若选择多层感知机和集成学习模型,需要进行多组学数据的表征合并;若选择卷积神经网络和图神经网络模型,需要进行高维度表征变换。这样可以将有效特征压缩并进行低维映射,构建交互调控网络,对细胞事件进行预测。对于多组学数据的模型选择,目前并没有一个金标准,往往需要根据具体任务进行选择。
值得注意的是,目前所有原生人工智能算法的开发都基于非生命体的工程数据,并不能完全适配以动态时空变化为主要异质性特征的生物类数据。因此,适配人工智能模型的开发和各级分子互作关系数据库的构建是生物组学数据整合与交互调控网络解析的关键和瓶颈,需要学科交叉进行联合攻关。
现代生命实验科学的主要目的是探寻事物之间的因果关系,但从大数据中获得的生命科学知识基本上是相关性的,而非因果性的。生物体是一个复杂网络的巨系统,研究者不能控制任何一个生理或病理活动涉及的所有变量。数据驱动的研究不依赖于假设,因而研究者不仅可以避开现存理论的限制,以及对“实验事实”的主观性选择和判断,还可以利用各种算法对获得的大数据进行分析,进而发现全新的现象或者事物之间隐藏着的内在联系。数据驱动的生命科学研究新范式并不追求结果的完备性。它采用的是一种全新的工作模式——迭代(iterate),即每一次研究工作获得的成果都不是完备的,需要未来研究者在已有版本的基础上不断完善并产生新版本,就像人类基因组从研究启动到今天的几次迭代不断完善一样。知识就像“未知海洋”中的“岛屿”,随着“知识岛屿”的扩大,“未知水域”同样也在扩大。不断拓展人类认知边界的挑战在于此,探索未知的乐趣也在于此。
(作者:丛斌,系全国人大宪法和法律委员会副主任委员、中国工程院院士)
(责编:孙红丽、申佳平)