大模型发展提速 中文语料够“吃”吗(3)

光山新闻网 采集侠 2024-06-27 01:24:01
浏览

今年初开始实施“数据入表”政策。张纪臣认为,随着“数据入表”政策的实施,出版企业的数字资源经过确权、评估、标准化后入表,成为出版企业的数据资产。在此基础上构建大模型训练使用方与出版企业共赢的商业模式,能发挥中国价值核心数据在人工智能时代的智能服务话语权。“这样一来,‘数据入表’可能成为加速数据有效流动、共享并实现共赢的关键一步。”他说。

数据流通环节问题突出

算法、算力、数据和场景是大模型发展的4个核心要素。当前,我国大模型算力算法能力显著提升,高质量发展取决于数据和场景,应构建“供得出、流得通、用得好”的高质量数据集。

尹西明表示,大模型变强用好,前提是建立以场景驱动创新的思维,引领高质量数据持续在各种应用场景中发挥价值。那么,解决数据“供得出”难题后,应重点确保高质量数据“流得通”,真正面向场景释放数据乘数效应和大模型对新质生产力的引擎价值。

数据要素在生产中的地位愈发重要,数据要素流动带来的开放性与动态性问题,为传统数据理论与相应技术带来新挑战和新要求。

“其中之一便是数据确权。”肖仰华表示,相比其他生产要素,数据要素在流通过程中主体更加多样,涉及数据生产者、采集者、加工者、使用者、运营者和其他产权人,权属界定复杂。

北京智源人工智能研究院理事长、中国互联网协会人工智能工作委员会主任委员黄铁军指出:“当前普遍存在一种误解,即将数据视为传统意义上的物理资产。其实,数据并非物理资产,作为数字形态产品,它可以被无限次使用,且不会导致数据损耗。”

他提倡在确保使用合规的前提下,大模型训练阶段可以免费获取数据资源。如果使用数据的过程中并未产生商业利益,则无需支付任何费用;反之,一旦通过数据使用获得了商业收益,便应按照既定比例支付相应的数据使用费用。

“虽然这一模式背后还涉及到数据确权、费率设定、监管机制等复杂问题,这些还有待深入探讨和解决,但‘先使用后收益’更有利于大模型的健康发展。”黄铁军说。

王峥则认为,确保数据流通需政府与企业、开源或非盈利组织、学界、多类型机构等社会力量协同推进。

他建议,在政府侧,对可用于模型训练的公共数据鼓励“应开尽开”,避免在数据开放过程中因为预设特定场景限制了应用范围;在社会力量侧,应坚持“应试尽试”原则,通过不断迭代,探索数据的有效搭配,寻找发挥最大价值的“配方”。

标注专业化、规模化提上日程

从2022年《关于构建数据基础制度更好发挥数据要素作用的意见》出台以来,数据要素建设和市场改革正稳步推进。今年5月,国家数据局提出建设国家级数据标注基地,这一举措对人工智能发展至关重要。

中国信息通信研究院人工智能研究所高级工程师、中国人工智能产业发展联盟数据委员会主任李荪表示,数据标注是推动人工智能进步的核心环节,它能够提升数据质量,挖掘数据核心价值,形成高质量数据集,持续为AI提供数据支持。

也就是说,在一定程度解决数据供给、促进数据共享和打通流通机制后,如何让大模型学习到高质量数据,是接下来各界面临的另一个新挑战。

数据标注的专业性和规模化也被提上日程。

李荪指出,当前国内数据标注产业还比较初级,大部分标注工作以人工为主,劳动密集型特点比较突出。但是,在通用人工智能时代,传统手工标注或简单自动化标注方法无法满足大模型对大规模、高质量、多样化数据的需求,特别是具备模型训练知识、行业领域知识的专业化数据标注人才也相对匮乏。

“大模型训练数据标注人员的学历要求比以前更高,很多是本科毕业。”王峥表示,行业大模型数据标注凸显了专业知识的重要性。