探访文溯阁《四库全书》数字化影印出版工程(人民眼·让文物活起来③)(2)

光山新闻网 采集侠 2024-05-30 22:24:01
浏览

  为保古籍安全万无一失,文溯阁《四库全书》藏书馆二楼会议室被改造成了数字采集室,做到原书“出库不出馆”。而从书库到采集室,平常不到一分钟的路程,藏书馆90后馆员魏乔波却要走好几分钟:戴上白色手套,细查一遍即将出库的古籍,再轻轻捧起,就像捧着一碗不能洒出的水,慢慢往楼上“移”,“就怕脚下不稳”。

  “古籍出库,要填报11类表格,层层审批。归还时,所有细节都要对得上。”魏乔波说,以其中的《提书登记表》为例,提取古籍需详细填报当日采集计划、提取数量,然后与书库管理员共同清点每一函、每一册书,包括函盒、夹板、束带、铜扣的存缺程度,每一册古籍的题名、卷数、页数,以及有无破损、污迹或霉斑等情况,“这些都要一一记录在案。一送一回路上、数据采集期间,古籍若有半点闪失,都会被及时发现。”

  数字采集作业班班长杨旭勇告诉记者,采集时必须使用古籍专用非接触式扫描仪高清扫描,且光源必须是冷光源。对采集人员,甘肃省图书馆的古籍专家也开展了多轮培训演练,“既要保证扫描精度与进度,还要避免伤害古籍,翻书的力道不能轻也不能重,要稳而有力。”杨旭勇说。

  准备周密,工作前期进展顺利,意料不到的问题还是出现了。“古籍开本大小相同,厚薄却不一样。”宋学娟翻开一本书,拿到一台扫描仪前比划道,“超3厘米厚的古籍,用这种平板扫描仪扫描,靠近订口的部分内容很难被有效采集。”

  为啥?不按压,无法扫描;按压,古籍易损,且采集到的内容会变形。怎么办?“为保证采集质量,我们追加预算,在已采购10台古籍专用平板扫描仪的基础上,又购置了两台V型古籍扫描仪。”宋学娟说,使用这种扫描仪,只需将书翻开到90度,即可完成扫描采集,问题迎刃而解。

  2021年12月23日,开机扫描;2022年5月23日,采集告竣。“整整5个月,经过人员倒班,实现每天工作16个小时、一天未休。古籍没有丝毫受损,函盒没有增加一道划痕。”阳光透过窗口,洒在黄底黑字的《文溯阁〈四库全书〉数字化工作手册》上,宋学娟长舒一口气。

  数据处理

  数字文件与古籍真本如同孪生,最大程度呈现古籍原貌

  偌大的房间里,数十名工作人员神情专注、紧盯屏幕,只听见键盘敲击声此起彼伏。在读者古籍数字科技中心的数据处理室,采集来的文溯阁《四库全书》数据,将被加工成标准的数字文件,供后续影印出版和数据库建设之用。

  “数据处理有4道流程,图版处理、一校、二校和质检存储。”宋学娟介绍,其中图版处理是关键,主要工作是拼接完整“叶”。

  叶,古籍特有的量词。不同于现代书籍,古代纸张多为单面印刷,一张纸即为一叶,书册由一叶一叶对折后装订而成。一叶,相当于现代书籍的两页。所以,数字采集到的扫描件实则都是半叶,图版处理就是让它们合二为一。

  “最初,我们先在电脑上制作一个标准叶模板,再利用智能软件,从扫描件上提取文字,贴在模板上。”宋学娟告诉记者,但实际操作中发现,智能软件可能会漏字、识错字,且原本每一叶的版式不尽相同,模板统一后,有“失真”之嫌。

  数字文件与古籍真本,如何保持孪生一般的相同面貌?“我们摒弃了标准模板,选择了逐叶拼接,最大程度呈现古籍原貌。”宋学娟说。