我们究竟需要什么样的大模型?(2)
彼时,面向公众发布的大模型产品均为内测使用,公众需提出申请,获得内测资格后才能进行体验。7月10日,国家网信办联合国家发改委、教育部、科技部等七部门审议通过并发布《生成式人工智能服务管理暂行办法》(以下简称《办法》),该《办法》8月15日起正式施行。《办法》明确规定,提供具有舆论属性或者社会动员能力的生成式人工智能服务的,应当按照国家有关规定开展安全评估,并履行算法备案等手续。8月底,一批完成算法备案的大模型产品陆续上线,正式面向公众开放。
或许是ChatGPT带来的震撼过于强烈,以自然语言对话为主要功能体验的大语言模型产品成为许多科技厂商的首选,甚至一度成为大模型的代名词。首批通过备案上线的大模型产品中有百度的“文心一言”、字节跳动的“豆包”、智谱华章的“智谱清言”等。截至9月底,已有十余家大语言模型产品官宣上线,大部分均提供聊天对话、创意写作、代码生成等服务。
但在大语言模型之外,也有厂商选择了另一条道路,不“恋战”大语言模型,而是直面行业具体问题。
在9月21日举办的华为全联接大会2023上,华为常务董事、华为云CEO张平安表示,盘古大模型要帮助各行各业的客户解最难的题。例如,在矿山领域,精煤产率是困扰业界多年的难题,山东能源集团已将“盘古”矿山大模型全面应用到采、掘、机、运、通等9大业务系统、21个场景中。在“盘古”的助力下,济宁二号煤矿每年能多产出8000吨精煤,精煤产率提升千分之二,增收约2000万元。
在正在举办的亚运会上,也少不了大模型的身影。由浙江移动打造的亚运保障网络运维大模型在幕后为亚运会保驾护航。它让保障人员“无论在哪,无论何时”都能以“对话”方式获取保障情况,全面提升了亚运会保障的工作效率,降低了保障工作的技术门槛。
浙江移动网管中心副总经理方炜告诉科技日报记者,无论是面向具体行业的垂直大模型,还是直面公众的大语言模型,从底层技术来看,二者并不冲突。“这两种选择就像是此前的互联网发展,既有改变人们生活的移动互联网,也有改变社会、改变行业的产业互联网。大模型也是基于通用的底层技术,衍生出了不同用途。比如浙江移动的网络运维大模型就是使用通用大模型通过微调和提示工程来满足亚运网络保障的场景。”
垂直大模型和通用大模型,究竟哪条赛道能够通向终极人工智能的“罗马城”,答案或许是——条条大路通罗马。
“万模群舞”或在不远的将来
无论是何种类型的大模型,在“百模大战”的背景下,其功能、用途、场景的重复都无法避免。但在业内人士看来,大模型的发展还远未触及天花板,不仅“百模大战”不是终点,“万模群舞”或许就在不远的将来。
“大模型的研发是一个拼细节的过程。从技术路线上看,目前各家基本上都是基于Transformer架构来做,方法很类似,但效果确实不一样,决定成败的是细节。”腾讯有关负责人接受采访时说,由于资源投入程度、细节把握程度的不同,最后不同产品的差异会逐渐显现。“从应用领域来说,会迎来一个‘百花齐放’的场景,比如有的专注于自然语言处理,有的专注于医疗领域,有的专注于教育领域等。就目前而言,大模型的天花板还远远没有触到,技术体系和应用场景都在不断演进。”腾讯有关负责人说。