计算医学:跑在超算上的医学(2)
现在生物医学专家习惯性地将基因组数据与已有的知识体系进行“查对”(俗称“查字典”)。“虽然这种方式在一定程度上解决了相应问题,但人体的复杂程度绝对是超乎想象的,真的有一本‘字典’可查吗?”哲源科技(中国科学院计算技术研究所孵化的一家构建生命数据解析平台的人工智能企业)首席运营官赵宇表示。
“这就需要我们有将生物学、医学相关学科的知识转化为数学模型的能力。”中国科学院计算技术研究所副研究员、中国科学院计算技术研究所西部高等技术研究院常务副院长张春明表示,应充分利用现有的生物医学数据,引入系统科学理论和视角,通过设计新的算法挖掘数据之间的关系,为解决现有的问题寻找新的路径。最终,以生物医学大数据推动生物医学研究由原来的假设驱动向数据驱动的方式转变。
算法与算力助力大数据应用
但长期以来,医生们受循证医学训练,更为强调“可靠”的知识。他们善于采集大样本的临床数据,并将基础理论的研究与临床经验相结合,最后把临床数据总结成临床诊疗指南与路径。
在精准医疗时代,清华大学人工智能研究院教授杨斌认为,应该在循证医学的基础上,更强调患者个体的个性化诊疗,通过对患者的数据分析并结合临床经验,给出最佳治疗方式。
“传统循证医学以群体证据作为核心依据,往往无法解释个体差异。而精准医学从基因、环境等个体因素考虑疾病在个体的发生发展过程和治疗应答,与仅考虑患者共性的传统循证医学相比,能更好地诠释个体差异,更好地提供个体化的药物治疗方案,更安全、更有效、更合理地配置医疗资源。”中国工程院院士、中国医学科学院北京协和医学院院校长王辰说。
此外,中国工程院院士樊代明也指出,传统的生物医学数据分析思维和方法难以适应大数据分析的需求。生物医学大数据实现了以患者为维度的多源数据的整合,需要分析的数据如此之多,因此不再只依赖分析少量随机抽样的数据,也不再热衷于探求数据之间难以捉摸的“因果关系”,而是更多关注数据的“相关关系”。与传统随机对照研究常用差异性统计分析方法不同,生物医学大数据更多采用数据模型以及控制混杂的统计分析方法。
那么,即便有了高质量的生物医学大数据,有了相应的算法,就一定能摸索出疾病的发生发展规律么?
谭光明给出的答案是否定的。他表示,光有数据和算法还远远不够,必须要有强有力的算力支持。他举例道,过去单一零散的数据,只需要在普通服务器上用简单程序处理和统计就可以;现在是多维海量的大数据,为了解决复杂生物医学问题,要用多维海量的PB级(1PB=106GB)大数据对生命进行建模,那就要设计复杂的算法,而算法的复杂度和计算量远远超过了普通服务器所能处理的规模,急需高性能的算力资源支撑。
计算医学扛起数据分析的“大旗”
“基于此,面向人类健康大数据,我们不能简单地将其理解为需要大规模存储和处理的数据。大数据的概念有别于统计抽样,它不是根据小规模抽样调查来推测被观察对象的全貌,而是试图用对该对象的所有测量数据来刻画对象。因此,大数据泛指能全面刻画客观对象所有数据的集合。”中国科学院计算技术研究所—哲源图灵达尔文实验室主任牛钢表示。随着数据量呈指数增长,数据更新速度不断加快,精准医学若想早日落地,急需计算机驱动的临床决策支持系统。