数字化,让古籍触手可及(护文化遗产 彰时代新义)(2)
杨浩上传了一页古籍图像,不一会儿,文字自动识别处理完成。古籍图像上显现出不同颜色的小方框,“每个方框对应一个文字,先切分再调整顺序。红色方框是提醒此处需要人工介入,来进一步判断和处理。”
与此同时,古籍图像旁已自动识别出一段文字,并可比照原图像进行修改调整。杨浩继续解释:“这个过程中,主要使用了文字识别、自动标点和命名实体识别等人工智能技术。文字识别技术,是对古籍数字图像中的文字进行单个切分,再进行文字识别和顺序读出;自动标点技术,是通过序列标注的方式对古籍自动进行现代标点;命名实体识别技术,则是通过序列标注方法识别出文本中的人名、地名、书名、时间、官职等信息。”同时,在机器自动识别后,会有专人复查结果,进一步提升准确率。
据悉,“识典古籍”平台文字识别的准确率达到96%以上,自动句读的准确率达到94%,命名实体识别在中古史料上的准确率接近98%。
“大部分古籍阅读平台或只提供扫描文稿,或只提供文本内容,有些商业数据库收费高昂,获取资源十分不便。”北京大学历史学系学生刘沐含说,“识典古籍”平台有着丰富的检索功能以及分类与年代筛选功能,可以辅助开展学术研究。
一个全流程的智能化整理平台
集纳展示古籍数字版本,不是“识典古籍”平台的全部。团队有着更大的设想——在一个平台实现古籍智能整理的全部环节。
“‘识典古籍’平台由两部分组成,前端是阅读平台,后端是古籍整理平台。”王军作了一个比喻,“就像是餐厅的前厅和后厨。”
目前,作为“后厨”的古籍整理平台,已经设定了团队管理员、书目管理员、审订员、整理员等各种用户角色。下一步,将吸引各行各业的古籍爱好者、研究者,以众包校对、协同审核等形式,推进古籍整理项目和数据库建设,打造“古籍图像上传—文本校对整理—高质量标记—文本输出”的全流程系统。
哈尔滨师范大学历史文化学院学生刘钰昕,提前体验了一回“整理员”角色。
“希望能为损毁严重的古籍做点力所能及的事情。”2022年4月,看到北大数字人文研究中心的招募信息,刘钰昕第一时间报名,成为“识典古籍”平台的一名志愿者。
“我参与了《春秋左传注》《史记》《汉书》等古籍的校对工作。”谈及志愿工作,刘钰昕的热爱之情溢于言表,“印象最深的就是,为了制定魏晋南北朝官职标注规则,我查阅了大量的文献,还详细翻阅了《文献通考》的‘职官考’二十一考。”
“新时代古籍事业发展,需要一批对古典文献学、古籍保护、信息技术以及数字化流程都比较熟悉,又能将各方面有机融合的复合型人才。”北京大学中文系教授杨海峥建议,应加强古籍学科理论构建和课程体系建设,编写适合新时代古籍工作需要的专业教材,并多为学生提供实践机会,以推进新时代古籍人才队伍建设。
“古籍是中华文明延续数千年未曾中断的有力证明,希望通过‘识典古籍’平台以及暑期工作坊、学术研讨等活动,推动中华文明传承发展,向世界展示和传播我们的文化之美。”王军说。
新年伊始,杨浩写下了新的展望:
“泱泱中华,历史何其悠久,文明何其博大。2024年,希望能收集更多古籍、提升整理质量,更好守护古籍这个文明之根!”
(厉 烨参与采写)
《 人民日报 》( 2024年01月10日 12 版)
(责编:杨光宇、胡永秋)