4小时,万篇论文筛出新冠病毒“密匙”(2)

光山新闻网 林晓舟 2020-04-18 09:10:16
浏览

“我们通过TWIRLS系统对信息进行获取、整理和分类,并通过增加额外独立功能数据源,建立由机器进行补充和完善相关专业知识的推理系统,帮助研究者快速建立主题认知并进行有效决策,提供了一种应对急性传染病的快速响应工具。”文章作者之一、中科院计算技术研究所副研究员张春明表示,这一发现或许为治疗急性病毒性肺损伤,提供了更多基于调控 RAS系统功能的潜在治疗靶点。

对海量信息做标签找规律

采访中,论文通讯作者、图灵—达尔文实验室主任牛钢告诉《中国科学报》,他们先从PubMed数据库中,找到公开发表且经过同行评议的、与冠状病毒相关的生物医学文献,然后在文本中采用统计学方法,对比对照语料库最终挖掘出123个与冠状病毒显著相关的特异性宿主基因(CSHG)。

之后,他们对不同文本进行了取舍,只选择包含了CSHG的文本,并基于这些文本来确定与冠状病毒宿主研究相关的特异性实体(CSSE),并建立了CSSE字典。

“我们不仅要把病毒宿主相关的基因和实体挖掘出来,还要按照某种规则进行聚类并加上功能标签。”牛钢说,随着生命科学和医学的发展,基因水平的研究才能准确回答和解决生理和病理问题。因此,他们对实体的聚类必须采用基因信息作为数据分析的内核,这样聚类的实体才能涌现出特定意义(见下表)。

4小时,万篇论文筛出新冠病毒“密匙”

“在我们实体聚类中可以看到一些特殊病情症状,例如胃肠道的症状,神经系统症状等。如果我们的方法已经在快速响应系统中产生作用,即便某些病征尚未大规模表现,但是临床医生也会提前得到相关指引,以做出对症治疗。”牛钢进一步说。

研究中,最令研究者感兴趣的是,冠状病毒的 Spike蛋白识别人类细胞上的不同受体分子,例如ACE2和DPP4。

已有研究显示,ACE2主要参与肾素血管紧张素系统(RAS)的功能,在心脏、肾脏和睾丸中高表达,而在其他多种组织中低水平表达(主要包括结肠和肺部)。且最近研究表明,新冠病毒蛋白和ACE2的结合强度是SARS病毒结合ACE2的10倍到20倍。

“这可能帮助新冠病毒经上呼吸道就能感染宿主,进而显著提高了病毒的传染力。”文章的第一作者季小阳说。

除了ACE2和DPP4,研究还发现,一种丝氨酸蛋白酶(TMPRSS2)能参与水解和激活血凝素(HA)蛋白。“这对于病毒感染性至关重要。但是其与病毒结合导致病理性改变的生物学机制报道却较少。”季小阳表示,对于实体、基因以及相关信号通路的研究可能是解决冠状病毒感染的预防、治疗和临床管理的方向。

仍有待进一步大规模临床验证

不过,论文作者之一、中国科学院计算技术研究所研究员谭光明也表示,尽管在目前临床上的数据中看到ARB类药物具有一些积极意义和应用前景,但目前仍缺乏更多尸检的组织病理学相关数据和严谨设计的“老药新用”临床实验,用来评估和矫正知识的机器总结和推理产生的初步发现。

“但这种通过机器方法结合文献挖掘,从已有的知识中总结规律,对新冠病毒能产生新的认识,这样也会有助于我们开展新冠肺炎药物、疫苗等工作。”谭光明告诉《中国科学报》,此次文本分析在 Intel Xeon CPU E5-2690v4 X2(28核),128G内存硬件条件下运行,完成所有自动化分析仅须4个小时左右。