我们究竟需要什么样的大模型?(3)
无论是“百模大战”还是“万模群舞”,要避免低水平的雷同复制,杜绝“重复造轮子”带来的资源浪费,关键仍在于不断丰富大模型的应用生态。今年5月,国际期刊《自然》发表了一项百度在生物计算领域的突破性研究成果,其提出的mRNA序列优化算法LinearDesign,对生物医学领域创新具有重要价值,这也是中国互联网科技企业首次以第一完成单位的身份在《自然》正刊发表成果。而在这背后,是百度在2022年5月便推出的“文心”生物计算大模型。借助大模型,人类能够快速找到并设计出活性更好、性质更优的候选药物分子,从而大幅提升新药研发和疫苗设计效率,让新药研发从单点突破的“手工作坊”阶段进入到规模开发阶段。目前,基于“文心”生物计算大模型和飞桨深度学习框架搭建的面向小分子、大分子和RNA的药物设计平台——飞桨螺旋桨PaddleHelix,已经应用于超过30家医药企业。
“无论是从技术层面还是产品层面,百花齐放、百家争鸣对于当下大模型发展都更加有利。算法研究阶段可能五花八门,但到工程选型阶段,可能会逐渐聚焦到一个或少数几个类型。而到了具体产品选型层面,面向不同市场、不同行业,产品形态可能又是多种多样的。”清华大学计算机系教授唐杰认为,无论哪种大模型都有各自的局限性,各种模型互相学习、竞争,在市场中大浪淘沙是必经之路。
给大模型发展更多耐心
“百模大战”虽然激发出了更多可能,但也带来了不少负面影响。当众多厂商蜂拥而上大模型时,参差不齐的产品让人眼花缭乱,其中暗藏的法律、道德风险也应引起人们的警惕。
例如,在面向公众的大语言模型产品中,“一本正经胡说八道”现象已经多次引发质疑。“我们常说大模型会产生‘幻觉’,就是因为大模型的内容准确性还不高、专业性能力不足,如果大模型产生的内容直接公开在互联网,会使当前良莠不齐的互联网信息质量更加低下。”方炜认为,大模型目前在内容安全、版权、主体责任等方面还存在多种风险。
而当深入到具体行业时,不同行业的不同特点也对大模型在准确度、安全性、专业性等方面提出更高要求。360创始人周鸿祎接受采访时表示,虽然公开的大模型是通用的,甚至是万能的,但是当深入到具体行业时仍然面临着缺乏行业深度、不懂企业内部知识、易导致企业内部数据泄露、无法控制成本等问题。方炜也同意这种说法:“例如大模型应用在通信网络保障方面时,就不允许有任何差错,目前准确性还有待提升。”
除了目前大模型自身仍然存在的缺陷,随着竞争的逐渐激烈,我国在相关数据、算力、算法等方面的困境也逐渐暴露。
例如,在训练数据方面,唐杰指出,目前我国的数据开放态势并不强,“大多数机构还是想把数据握在自己手里”。但唐杰也坦承,即使机构有数据开源的意愿,在目前环境下,仍然存在多重风险。他建议,我国关于大模型训练数据应用、开源的相关法律法规还需要进一步细化、健全,让有开源意愿的机构能够放心地进行数据开源,充分激发互联网精神。
而在算力方面,“百模大战”对算力的高需求也让我国本就紧张的算力资源更加捉襟见肘。在“东数西算”基础上建立起的算力互联网或许有望成为解决这一问题的答案。通过对不同地区的算力资源进行调度,实现算力资源的均衡分配。但目前仍然需要在高带宽、低延迟的算力网络建设方面突破更多技术瓶颈。