生物信息学为大数据 “插上翅膀”
生物信息学为大数据 “插上翅膀”
图为陈润生院士正在做报告。
“如今,生物信息学正扮演着越来越重要的角色,它也是信息时代带给生物医学的巨大推动力。”8月3日,在第十四届国际生物信息学论坛(IBW 2019)上,哈佛大学教授刘小乐表示,生物医药领域产生了海量的数据,如何通过生物信息学与计算科学弄懂这些数据,成为生命科学领域专家共同关注的话题之一。
此次论坛共邀请国内外20位顶尖学者围绕表观遗传学、基因组学、转录组学、蛋白质组学、系统生物学等前沿科学领域的最新研究进展、技术发展和临床应用进行了主题报告。
越来越多的科学研究表明,不同个体携带的DNA信息差异可能成为探索生命奥秘的关键密码。也正是基于基因组研究在人类医药学领域和农业生产领域的潜在应用价值,世界上众多科研机构和商业公司在组学技术上展开了激烈的角逐。
中国科学院生物物理研究所研究员、中国科学院院士陈润生首先介绍了非编码基因领域的一些最新研究进展。他表示,部分非编码基因可以翻译成小肽,这个过程并不是随机的,而是受调控的。研究发现,约46%的小肽像编码基因一样,以AUG作为起始密码子,而对于非AUG起始的小肽,目前正借助离体的翻译体系作进一步研究。此外,非编码RNA还存在“过度翻译”现象,比如circRNA可以环绕自身多圈,翻译成更长的肽段。
“非编码基因有潜力成为很好的肿瘤标志物或药物靶点,如lncTCF7和lncKdm2b等。”陈润生说,随着DNA计算机的发展,如何突破液相反应体系中结果提取的速度限制将成为关键问题。
目前,国内外已经有100余种序列比对软件被开发出来,哈佛大学医学院助理教授李恒表示,新一代短序列比对软件在达到≧150bp的基础上会进一步提升速度,这在大数据时代有着重要意义。与此同时,参考基因组也需要进一步完善,为基因组在科学研究和临床工作中的应用打下更为坚实的基础。
宾夕法尼亚大学病理系副教授王凯指出,基因组上重复序列的变异与一系列疾病相关,如亨廷顿舞蹈症等,但是传统的短读长基因测序技术难以实现准确的鉴定,而长读长测序平台能够更好地鉴定重复串联变异。重复序列鉴定工具RepeatHMM在算法层面做了一系列改进,避免传统方法鉴定重复次数的误差。目前,他的团队开发的LinkedSV,就可以精准鉴定包括倒位、缺失在内的各种结构变异。
可以说,不断积累的组学大数据正在帮助科学家们越来越多地揭示一系列复杂疾病发生发展的机制。“如果将基因组学、转录组学等数据和化学反应结合在一起考虑,还能够帮助我们提升对于肿瘤等疾病的认识。”美国佐治亚大学教授徐鹰说。
与此同时,组学大数据的积累与挖掘给相关产业带来全新机会点,但随之而来的问题即是如何高效地对数据进行分析和解读。那么,近年来新兴的生物云计算平台将如何更好地提供助力呢?
中软国际科技服务有限公司云服务工程师表示,生物信息行业全年业务存在波峰和波谷,当业务处于波谷时,本地服务器集群等系统可满足业务对IT资源的需求,但面对业务波峰时,本地资源受规模限制而无法及时满足需求,此时就可以利用公有云资源弹性扩展资源规模,以此缩短分析时长和提升解读效率。同时,华为云将容器技术应用于生物信息领域并发布了基因容器服务(GCS),为广大生物信息人员提供“更省、更快、更轻松”的云计算平台。