热风口下的冷思考:ChatGPT还能飞多远?(2)
但这种未经授权获取文本数据的预训练方式已引发争议和不满。推特(Twitter)现任首席执行官埃隆·马斯克就于近日宣布,叫停ChatGPT访问Twitter数据库来获取培训数据,声称“需要更多了解OpenAI的治理结构和未来收入计划”。
无独有偶,近日,拥有国际性体育资源的盖蒂图片社对同为人工智能企业的Stability AI提起诉讼,指责其未经许可从其数据库中复制了1200多万张图片,用于建立竞争性业务,并侵犯了该公司的版权和商标保护权。
左图为盖蒂图片社原图,右图为人工智能生成的图像,其包含了盖蒂图片社的版权水印,侧面印证了人工智能在学习过程中误将水印理解成了图片的一部分。图片来源于网络
张勇东表示,类似ChatGPT这样的预训练模型,其训练数据往往来源于书籍、网站等,而其用于训练的语料未经授权,存在版权风险。且这种训练过程往往不对外公开,训练数据也不对外公布,因此版权拥有者并不知情。待模型完成后,生成的内容往往是原始训练数据的某种组合,对外服务过程中就会存在侵犯原始版权的问题。
“这点与搜索引擎的服务机制不同。搜索引擎只是提供原始内容的链接,但ChatGPT则是以自身生成内容的形式提供服务,甚至连模型自己都无法确认是参考或综合了哪些原始素材。”他说。
正因如此,对于人工智能生成内容不能全盘接收,要注意甄别风险、加强监管,正成为业界共识。
近日,OpenAI首席技术官米拉·穆拉蒂在接受媒体采访时坦言,和其他聊天机器人一样,ChatGPT可能会编造事实,也可能会被坏人利用,需要政府部门尽早介入进行监管。
“从长远来看,社会各界应该积极推动制定人工智能生成内容(AIGC)的规范标准。世界各国应该共同努力,基于海量数据研发生产出更加符合全人类道德价值标准的内容。”张勇东说。
他建议,要强化数据源头把控,尤其是对涉及隐私、伦理、道德、政治偏见和种族主义等内容,要进行更严格的数据审查和清洗。
石霖建议,应加快布局人工智能安全标准、伦理规则的研究,针对人工智能新技术可能带来的版权风险、内容风险等推动形成行业自律。同时,还应做好AIGC技术应用的科普工作,提升民众的科学素养和风险认识。
炒作“哑火”后思考行业长远发展
ChatGPT的爆红,让OpenAI赚到了第一桶金,也让各路资本争相入局。
2023年1月,微软再次宣布向 OpenAI 投资数十亿美元。据了解,这是目前人工智能领域规模最大的一笔投资。投资机构红杉资本预测,未来AIGC有潜力产生数万亿美元的经济价值。
连日来,A股市场也经历了人工智能概念股大幅波动。但随着监管函的下达,炒作现象逐渐开始“哑火”,更多关于人工智能行业长远发展的思考和理性声音正在出现。
针对人工智能将取代部分人类职业的网络讨论,张勇东直言,人工智能技术距离真正达到类人的程度还有很长一段路要走。目前以ChatGPT为代表的AIGC在逻辑性、可解释性和可溯源性方面都有待完善。
“国际上先进的人工智能发展都不是一蹴而就的,而是有迹可循、不断突破的。”人工智能企业智谱AI首席执行官张鹏表示,“ChatGPT的出现是否意味着人工智能已经‘踩’到了通用人工智能这一终极目标的‘门槛’,还需冷静看待。”
多位行业专家表示,可以预见的是,在“人机共生”的未来时代,人工智能确将解放人类、提高效率,但其身份是“助手”而非“主人”。
而针对ChatGPT爆火引发的对国内人工智能产业的质疑,也需要用更加全面的眼光来看待。