中国科技创新“乘”数直上(2)
科研人员可以把各自收集整理的科学数据在科学数据银行里进行储存和出版,而科学数据银行通过吸纳“数据存款”,“变小钱为大钱,变死钱为活钱”,把分散在个人和集体中的数据资源集中起来,使其更容易被发现、访问、互操作和重用。同时,学术论文投稿前,科研人员也可以将论文数据上传到科学数据银行。
截至今年2月2日,科学数据银行共收集了开放数据集820多万个,平台访问量超过7亿次。
开发大模型
开发人工智能大模型是“数据要素×科技创新”行动的另一个重要目标。
《“数据要素×”三年行动计划(2024—2026年)》中提出,以科学数据支持大模型开发,深入挖掘各类科学数据和科技文献,通过细粒度知识抽取和多来源知识融合,构建科学知识资源底座,建设高质量语料库和基础科学数据集,支持开展人工智能大模型开发和训练。
近年来,中国在大模型领域拥有良好的算力基础和广阔的市场,国产大模型频频亮相、加速迭代。工业和信息化部赛迪研究院数据显示,目前,中国已有超过19个大语言模型研发厂商,其中,15家厂商的模型产品已经通过备案。
凭借语言理解、逻辑推理、知识问答、文本生成等通用能力,这些大语言模型产品一经推出,便受到用户的欢迎。
“科技创新实现新突破。讯飞星火认知大模型处于全国领先水平。”这是写进今年安徽省《政府工作报告》中的一句话。
讯飞星火是科大讯飞公司在2023年5月正式发布的新一代认知大模型,从发布至今历经多次迭代,不断升级核心能力的技术底座,持续赋能各行各业。目前,讯飞星火在国务院发展研究中心国研经济研究院、新华社研究院中国企业发展研究中心等机构的多次评测中获得肯定,被誉为中国优质的国产大模型。
“只有把大模型建立在完全自主可控的平台上,我们才能把通用人工智能时代的发展主动权牢牢掌握在自己手里。”科大讯飞研究院院长刘聪对本报记者说。2023年10月,在科大讯飞全球1024开发者节上,科大讯飞宣布联合华为打造国产大模型算力底座“飞星一号”平台,在此基础上,讯飞星火大模型开启了更大规模的训练。
目前,基于“飞星一号”的讯飞星火V3.5已完成训练,并于1月30日发布。升级后的讯飞星火V3.5在逻辑推理、语言理解、文本生成、数学答题、多模态等方面的能力均显著提升。同时,讯飞还发布了星火语音大模型和开源大模型。
“大模型带来了语音技术发展的全新机会。”刘聪说。让机器具备学习、推理和决策的能力,就是认知大模型要干的主要工作。
“我们认为,未来人工智能大模型的发展可能会有以下四个趋势。”刘聪告诉本报记者,“第一是多模态和多语言。站在未来通用人工智能发展的角度,认知智能大模型是核心基础,基于此,语音、图像、视频等其他数据可以对齐到统一语义空间中,结合插件工具实现多模态系统呈现。第二是可信可解释。这就需要保证海量数据的源头质量、大模型本身能力及系统方案的不断优化迭代,加上国家出台的监管政策和法律法规护航。第三是向系统性创新方向发展。基于单点技术组合的软硬一体化创新在AI(人工智能)领域已有产品、应用的先例,在大模型能力支持下,我们需要联合多种优势技术进行系统性创新,并关注其所带来的护城河效应。第四是软硬件一体全国产化发展。目前,讯飞投入并深度参与到国产AI芯片软件生态建设中,在训练侧和推理侧已有一定的收获和进展。”
推进数智融合