人工智能辅助科研要从可用走向可信(2)
科大讯飞北京研究院执行院长、科技文献大模型研发负责人伍大勇表示,研发科技文献大模型,核心难点就在于保证其内容的可信性和专业性。“一方面,这要依靠高质量的论文数据;另一方面,在模型预训练和监督微调方面也需要下功夫。”伍大勇说。
他介绍,科大讯飞通过与中国科学院文献情报中心合作,在合规的情况下获取了丰富的科技文献数据,并对数据进行了去重、去噪等处理,以提升数据质量。“星火科研助手采用中国科学院文献情报中心提供的论文接口来进行论文检索。此外,我们还使用了基于论文知识库的检索增强和知识增强策略。这些都使大模型生成的结果有据可依。”伍大勇表示,这些措施从技术上保证了星火科研助手回答结果的准确性,也尽量避免了大模型出现AI幻觉。
同时,伍大勇表示,针对科技文献服务的各个场景,星火科研助手研发团队还邀请专业团队,对大模型训练数据进行监督微调,以提升星火科研助手在科技文献服务上的性能表现。“例如在成果调研和论文研读功能上,我们采用大模型结合知识图谱和知识库的策略,以保证产品输出的内容有据可依。在学术写作上,我们针对学术翻译和学术英语润色专门进行了大模型监督微调,以达到比通用翻译和校对产品更强的专业性。”伍大勇说。
或能激发科研工作者更多灵感
虽然目前尚未有太多人工智能产品被应用于科研领域,但已有学者对人工智能进军科研提出了反对意见,认为这会让科研工作者变得懒惰。在严伯钧看来,科研工作者在应该“懒惰”的地方“懒惰”,反而可以节省出更多时间用在更有价值的工作上。
阅读文献前首先要进行文献检索。为此,科研工作者往往需要搜寻大量文献,在此基础上对部分感兴趣的文献进行粗读,以进一步判断哪些是自己真正需要的文献。这是实打实的“体力活”。严伯钧认为,在这种情况下,借助人工智能工具帮助科研工作者跳过检索、粗读的过程,以更高效的方式直接找到需要的文献,可大幅提升科研工作者的文献阅读效率。
虽然可以借助大模型等工具来检索阅读文献,但严伯钧也不否认读原文的价值。“原文当然要读,但并不一定是每篇都要读。更加精准地定位到需要的文献后再进行精读,是更加高效的方式。”
伍大勇同样表示,研发星火科研助手的初衷在于帮助用户快速了解论文核心内容,提高论文研读效率,让科研工作者能够把更多精力花在更为重要的实验验证等工作上。“辅助提升科研效率是科技文献大模型的关键和目标,但科研工作所需要的灵感、思路、逻辑推理、实验验证、创新与探索等仍离不开科研工作者发挥主观能动性。”
事实上,除了能够辅助阅读文献,人工智能已经在多个科学研究领域带来实际成果。例如在预测蛋白质结构方面,人工智能产生的成果已经远超人类过去工作的总和。严伯钧认为,这种需要大量计算、反复试错的工作,正是人工智能的强项,人类应与其形成合理分工,拥抱新技术。
谈及未来人工智能可能给科研工作带来的改变,严伯钧认为,目前的文献阅读、翻译润色等功能,可能只发挥了人工智能在科研工作领域潜力的1%。在他看来,当下科研发展正呈现出细分化的趋势,一位学者往往只深耕于某一科研领域,而人工智能的跨界思维模式未来或能给科研工作带来一些改变。“或许人工智能可给科研工作者带来更多跨领域、交叉学科的原创性启发,激发科研工作者更多想象力。”
(责编:郝帅、李楠桦)