数字化,激活古籍生命力(3)
“如果人工智能不介入,完全依靠人力,古籍数字化全部完成可能还需要上百年的时间,但有了人工智能,完成全部古籍的数字化也许只要二三十年。我们对此有信心。”王宇举例说,百衲本《二十四史》将近4000万字,但利用人工智能,识典古籍北大整理团队仅用3个多月就完成了识别、点校、上线发布。
尽管经过人工智能处理的古籍文本准确率已经很高,但依然需要人工核校。特别是一些异体字、冷僻字,以及特殊格式的古籍,更是离不开专业古籍工作者的核校。
“人工智能并不能完全取代人,人工智能的优势在速度,而人的优势在精确和创造性。通过人机协同、人机互补,可以大幅提高古籍整理出版的效率和质量。而高质量的、学术性的古籍整理工作依然需要专家学者长期不懈的努力,不可能被计算机所替代。”洪涛说。
古籍整理进入大众化时代
古籍整理是专业性很强的工作,但在人工智能高速发展的今天,古籍爱好者也可以参与古籍整理。其流程大致是这样的——
经过人工智能处理的古籍文本,通过互联网分发给在线编校人员,后者在电脑上对照古籍底本高清图像,逐字逐句审阅,并在古籍整理平台上修改。管理员借助平台的版本比对功能审阅修改记录,判断是否合格。
古联公司建立的全国第一个古籍整理众包平台正是这样运作的。从2018年上线以来,籍合网古籍整理众包平台积累了近5000人的在线古籍编校队伍。这些在线古籍编校者绝大多数都是业余人士,有大学生、图书编辑、律师、教师,也有公务员、金融界人士、自由职业者等。爱好文史、熟悉互联网是他们的共同特征。
全书近2亿字的《中华大藏经·续编》通过众包模式,在全球900多位业余审校者的参与下,仅用时两年就完成了两个校次的底本校对与审核工作。“古籍整理众包工作模式不仅解决了大型古籍整理项目在人力方面的需求,更重要的是解决了地域限制和个体时间分散、随意的难题,使人力和时间都得到了充分的利用。”洪涛说。
“青年一代对中华传统文化的认知和热爱,是推动古籍事业高质量发展的重要推力。”张志清说。
目前,一支2300余人的古籍志愿者队伍活跃在字节跳动公司。每次识典古籍发布古籍审校任务,志愿者们就会在群里认领,往往是“秒光”。手速稍慢,任务就被人领走了。
古籍志愿者许黧丹参与了《茶苑》和《鸡足山志》两部古籍的文字校对和结构整理任务。“亲自参与,大受震撼,完全颠覆了我的认知。原来,只是轻轻滑动鼠标就能浏览到的内容,背后凝结着这么多复杂的步骤和这么多人的心血。”许黧丹说,“除了为古籍数字化做出自己的微薄贡献,还结交了志同道合的朋友,自己也增长了不少见识。我们都在期待下一次的古籍整理任务了。”
在人工智能的帮助下,未来的古籍数字化还会有怎样的进展?
洪涛认为,目前的古籍数字化仅仅是一个开始,未来可以利用人工智能进行古籍的辑佚、汇编、注解、翻译、检索、索引甚至考证和摘要工作。而更重要的是,利用人工智能开发古籍,用古籍蕴含的浩瀚素材创作生成内容。
“比如,创作一部历史题材的影视剧就可以让人工智能从古籍里寻找相关素材,自动生成故事。创作者在此基础上继续修改。这个过程不断循环,就能创作出高质量的作品。我们离这一天已经越来越近了。从这个意义上说,中华古籍是一座宝藏。”洪涛说。
版式设计:汪哲平
《 人民日报 》( 2023年10月03日 07 版)
(责编:牛镛、岳弘彬)