大模型发展提速中文语料够“吃”吗(2)

光山新闻网采集侠 2024-06-27 01:24:01

浏览

然而，关于版权类语料使用，数据提供者和大模型厂商持有不同见解。王峥认为，大模型对版权类训练语料的使用属于转换性使用，而非复制式拷贝，应构成“合理使用”或“法定许可”。

上海世纪出版集团数字出版部副主任刘寅春对此持有保留意见。她指出，大模型的深度学习机制与人类学习有相似之处，使用版权类数据进行训练，类似于人类阅读文献后撰写论文而不标注参考文献。“从学术规范上来说，这种做法很难说没有瑕疵。”她说。

此外，大模型厂商训练大模型的最终目的是商用，这与“合理使用”的初衷和前提并不相符。“法定许可”需要满足一定条件，包括说明作品的出处、作者姓名，并支付报酬。如果这些条件无法满足，那么在显性法律释义下，这种行为很难构成“法定许可”。

在人工智能时代，高质量数据集是出版行业的核心资产。刘寅春认为，在有利于行业健康、可持续发展的前提下，切实保障知识产权，对高质量数据集进行有效开发和高质量转化，是出版行业的核心。

“出版行业为大模型提供语料，相应地，大模型的技术进步、功能提升，也应惠及包括出版行业在内的更广泛群体。”刘寅春提倡以合作共赢的方式与大模型厂商开展数据交易，通过订立授权协议，明确授权范围和条件，实现共同发展。

“如何将出版物进一步加工为数据要素并有效、有序流通，是摆在出版人面前的新问题。”中国出版传媒股份有限公司副总经理张纪臣说，“但我认为这同样是新机遇，因为我国出版行业一直强调知识服务这一理念。将出版物作为语料使用，从而提供产品和服务能力，正是出版知识服务的产品化体现。”

数据开源分享动力不足

目前，我国可供大模型训练的优质数据资源呈碎片化、分散状态。

“特别是语料和科研成果等中文高质量数据集开放程度低，企业在训练大模型时使用的语料来源不透明、权属不明确，开源后存在合规风险，这导致企业更倾向于自行采集和使用数据，大模型数据流通机制尚未形成。”王峥说。

北京理工大学管理学院副研究员尹西明认为，需要构建一个市场化、互利共赢的数据共享机制，以促进高质量中文数据的积累和有效利用。

“确立清晰的数据要素市场制度对于激发高质量数据集构建至关重要。”在复旦大学教授、上海市数据科学重点实验室主任肖仰华看来，只有当市场机制能够确保数据贡献者获得合理回报时，才能吸引更多的数据流入市场，充分挖掘并实现数据共享的巨大潜力与价值。

2023年12月31日，国家数据局等部门印发《“数据要素×”三年行动计划（2024—2026年）》，强调坚持需求牵引、注重实效，试点先行、重点突破，有效市场、有为政府，开放融合、安全有序4方面基本原则。

该行动计划进一步明确，要提升数据供给水平，在科研、文化、交通运输等领域，推动科研机构、龙头企业等开展行业共性数据资源库建设，打造高质量人工智能大模型训练数据集。

事实上，作为数据流通领域中最大的“富矿”，公共数据开放的步伐正不断加快。《全国数据资源调查报告》显示，2023年，我国公共数据开放量同比增长16%；省一级政府的开放数据量同比增长了18.5%，北京、浙江等15地数据管理部门开始探索公共数据授权运营机制。

财经频道