数字化,激活古籍生命力(2)
自2012年以来,我国古籍事业进入新时代,古籍数字化不断提速。2022年4月,中共中央办公厅、国务院办公厅印发《关于推进新时代古籍工作的意见》,明确提出“推进古籍数字化”,强调“支持古籍数字化重点单位做强做优,加强古籍数字化资源管理和开放共享。”《意见》进一步激发了相关单位古籍数字化的动力,以大型图书馆为主体的公藏单位普遍开展了古籍数字化工作。
今年9月,国家图书馆组织第八次古籍数字资源联合发布,新增发布古籍资源1672部(件)。至此,全国累计发布古籍及特藏文献影像资源达13万余部(件)。
不过,在快速发展的同时,古籍数字化还存在薄弱之处。据统计,我国现存古籍约20万种5000多万册(件),但实现数字化的不超过8万种,大多数所谓数字化古籍只是完成了初步的影像扫描,真正实现文本数字化的不足4万种。
古籍数字化专家吕亚峰说,古籍影像扫描是古籍数字化的基础,但影像无法检索;只有数字化文本才可以检索,便于研究、阅读和传播。因此,今后古籍数字化工作应把重点放在古籍文本的数字化上。“现在有了人工智能等先进技术,加速实现全部古籍的数字化已经具备了条件。”吕亚峰说。
“如果现存古籍全部数字化,那么我国古籍保护就迈上了一个新台阶,古籍灭失的可能性就大幅降低了。这对于赓续中华文脉,将是一个了不起的贡献。”张志清说,“我们所处的新时代,有史以来,中华民族第一次有可能实现文化典籍永久保护和传承。”
古籍数字化进入人工智能时代
将古籍高清影像上传服务器,点击自动识别按钮,只见古籍影像上立刻出现一个个不断闪动的格子,自动套住图片上的每个字,相应的文字就按照古籍上文字的排列顺序出现在页面。这一过程不过数秒。
“人工智能在古籍数字化中的应用有效提升了古籍整理的效率。”古联公司总经理洪涛说,以籍合网OCR(光学字符识别技术)识别为例,5分钟的OCR识别相当于人工录入20小时的工作量,而且错误可以降低75%。“这对传统纸本古籍整理效率的提升是巨大的,”洪涛说,人工智能解决了大型古籍整理项目耗时耗力、过久过多的现状。
以西泠印社“刻在石头上的浙江”系列丛书为例,古联公司编辑部参与了包括《东瓯金石志》等在内的9种金石类古籍的整理,共计约147万字。在整理过程中,全流程利用智能整理技术辅助工作。首先用OCR识别底本文字,然后采用线上众包模式开展底本校对工作。校对后的稿件通过自动标点功能进行标点,标点后的稿件再交由编辑进行校勘和通读审稿。在这种工作模式下,编辑部仅用时4个月就完成了全部稿件的整理工作和部分编辑工作。“这样的速度在以前是不可想象的,只有在人工智能时代才能成为现实。”洪涛说。
人工智能正在变得越来越“聪明”,现在对版刻本的识别准确率可达98%。即使对行夹注、眉批、行间批注、表格等不规则的古籍版面,不仅能准确识别文字,还能通过针对性训练优化分区效果,从而避免出现虽然单字识别正确,但阅读顺序颠倒错乱不能复用的情况。
以往给古籍断句和加标点,需要经验丰富的专业人士手动进行。但现在人工智能可以实现机器自动断句、自动标点。洪涛介绍,目前研发的自动标点技术,断句准确率平均达到98.46%,标点准确率达到93.94%,专名线书名线自动标注准确率达到92.15%,标点标线后的古籍文本更方便阅读、理解和研究。