当“望闻问切”遇上人工智能(2)
在准确性上,由于模型预训练时所用的文本范围不一定囊括所有专科,针对疑难杂症以及罕见疾病的语料也不一定足够丰富,因此模型在面对较为罕见的场景时,有可能会出现根据它当前掌握的知识强行作答的情况。“在医检实践场景中,我们也发现大模型在回答问题的过程中有可能出现幻觉,会将没有出现在描述里的症状纳入到考虑范围中。”刘斯表示。
在一致性上,若以相同的问题重复多次询问模型,模型偶尔会出现回答前后不一致的情况。这种随机性在日常对话或者故事创作中是受欢迎的,但在临床咨询场景中是不允许发生的。
在及时性上,大模型受限于训练语料的时限性,无法直接利用训练之后才产生的新语料。换言之,新的医疗发现和诊疗指南等信息难以直接、有效地注入未更新的大模型里。
“与以聊天为‘主业’的ChatGPT相比,在医疗方面,我们需要大语言模型给出尽可能稳定和精确的结论,避免因为模型幻觉或者含糊不清的回答,误导患者选择错误的诊疗方案。”刘斯指出,目前大部分医疗领域的大语言模型会选用知识图谱进行辅助,图谱质量在很大程度上会影响其回答质量。
大语言模型要借助什么技术手段解决这些缺陷呢?刘斯认为,除了预训练过程中需要纳入足够多的医学专业数据外,在模型设计中,也需要重视它对知识图谱的利用能力,以及基于图谱的推理能力。目前看来,完全依赖大模型进行外部不可见的独立推理过程并直接向医生输出结果,这种模式在医学场景中较难达到足够高的准确率,也较难获得医生的认同。“知识图谱+大模型”的技术路径,可能会是促进大模型在医学场景落地的更优选择。
此外,大语言模型在微调阶段和测试阶段,需要医学专家的深度介入,依托具有交叉学科背景的研发团队对模型进行迭代,保障模型的反馈严格遵照医学逻辑;同时,在应用过程中,也需要注重大语言模型本身以及相关知识图谱的更新频率,如可借助指令精调乃至重新预训练等手段将新增的医学语料纳入大语言模型的“知识库”,以应对模型医学知识更新不及时的问题。
同时,业内专家也提醒道,要注意对用于医学领域的大语言模型进行监管和评估。刘斯表示,应在遵循现有生成式人工智能以及人工智能医用软件的管理办法和规章制度,保证数据来源和技术安全、合规、可控的前提下,在大语言模型研发过程中加强与医学专家团队的协作,这样一方面可确保医学领域的知识有效注入到模型中,另一方面也能使模型输出的结果与医生诊疗结论保持相似或一致。此外,将现阶段模型输出的结果用于诊疗决策之前,仍需要由医生来把最后一道关,保障结果的专业性。目前来讲,大语言模型仅能作为医生的助手,而不能替代医生进行决策。
(责编:王震、陈键)
关注公众号:人民网财经