古籍记录历史、传承文化,是中华文明源远流长、博大精深的表征和见证。随着古籍数字化步伐的加快,实现全部古籍永久保存的目标有望实现。越来越多收藏在图书馆里的珍贵古籍走出“象牙塔”,走进社会大众。古籍数字化的持续推进,让古籍面貌焕然一新,不断激发古籍生命力。“活起来”的古籍日益成为传承中华优秀传统文化、坚定文化自信的宝贵滋养。
古籍数字化带来阅读便利
什么是“天头地脚”?什么是“象鼻”?什么是“鱼尾”?……打开识典古籍网站《永乐大典》数字高清影像库,点击这些看起来有些陌生的名词,《永乐大典》高清图片上相应的位置立刻突出显示,直观而形象地展现这部珍贵古籍的风采。更令读者感兴趣的是,网页上的《永乐大典》可以随着鼠标调整方向和角度,360度观赏,仿佛是拿着真书在阅读。
“这是我们的专利技术,用光影变化最大限度地模拟实体书的阅读体验,最大限度地保存古籍原貌。”识典古籍项目产品负责人王宇说。
《永乐大典》数字高清影像库是国家图书馆承接的国家古籍数字化重点项目,由北京大学数字人文中心和字节跳动公司共同设计研发。该项目第一辑收录国家图书馆馆藏《永乐大典》40册、75卷的内容,除呈现《永乐大典》高清图像、整体风貌及相关知识外,还尝试对部分大典内容做了知识标引,为后续《永乐大典》的知识体系化、利用智能化进行探索。
“数字化解决了存藏和使用之间的矛盾。”国家图书馆副馆长、国家古籍保护中心副主任张志清说。因古籍年代久远、极易破损,珍贵古籍的借阅有一整套严格的流程,普通读者是难以接近的。“纸寿千年”,每一次翻阅都是对古籍的伤害。“古籍数字化既减少了纸书的磨损,也使《永乐大典》这部宝贵文献‘化身千百’‘走入寻常百姓家’,从而弘扬中华优秀传统文化,推动相关学术研究,感知《永乐大典》的不朽神韵。”张志清说。
除了让珍贵古籍走近普通读者,数字化也降低了古籍的阅读门槛。
在识典古籍网站和客户端上,《论语》《孟子》等常见古籍不仅有文本,而且有古籍原本影像,图文左右对照;有注疏和翻译,文白对照;不仅可以阅读,还可以检索。“目前我们初步把人名、地名和官职等实体进行了标注,也上线了字典释义功能,鼠标或手指放到不认识的字词上,就会显示注释。下一步还要把实体标注与百科词条链接起来,遇到不懂的问题,点击即可呈现详细解释。”王宇说,通过数字化降低古籍阅读门槛,可以让更多读者亲近古籍,感受中华优秀传统文化的魅力。
作为面向大众的公益性古籍数字化平台,目前识典古籍已上线古籍1600余部,免费对公众开放。读者对于数字化的古籍表现出很高的阅读热情,短短数月,识典古籍累计用户数已超过1240万。
面向专业用户的古籍数据库建设步伐也在加快。中华书局下属古籍数字化企业古联公司开发的古籍整理出版资源平台籍合网,自2018年上线以来,已发布数据库31个,涵盖专业古籍整理出版资源20亿字,石刻资源5万余篇,历代登科人物10万余条,木版年画18000余幅,书法作品10000余种,甲骨文卜辞143856条,总计字符30多亿。
自2012年以来,我国古籍事业进入新时代,古籍数字化不断提速。2022年4月,中共中央办公厅、国务院办公厅印发《关于推进新时代古籍工作的意见》,明确提出“推进古籍数字化”,强调“支持古籍数字化重点单位做强做优,加强古籍数字化资源管理和开放共享。”《意见》进一步激发了相关单位古籍数字化的动力,以大型图书馆为主体的公藏单位普遍开展了古籍数字化工作。
今年9月,国家图书馆组织第八次古籍数字资源联合发布,新增发布古籍资源1672部(件)。至此,全国累计发布古籍及特藏文献影像资源达13万余部(件)。
不过,在快速发展的同时,古籍数字化还存在薄弱之处。据统计,我国现存古籍约20万种5000多万册(件),但实现数字化的不超过8万种,大多数所谓数字化古籍只是完成了初步的影像扫描,真正实现文本数字化的不足4万种。
古籍数字化专家吕亚峰说,古籍影像扫描是古籍数字化的基础,但影像无法检索;只有数字化文本才可以检索,便于研究、阅读和传播。因此,今后古籍数字化工作应把重点放在古籍文本的数字化上。“现在有了人工智能等先进技术,加速实现全部古籍的数字化已经具备了条件。”吕亚峰说。
“如果现存古籍全部数字化,那么我国古籍保护就迈上了一个新台阶,古籍灭失的可能性就大幅降低了。这对于赓续中华文脉,将是一个了不起的贡献。”张志清说,“我们所处的新时代,有史以来,中华民族第一次有可能实现文化典籍永久保护和传承。”
古籍数字化进入人工智能时代
将古籍高清影像上传服务器,点击自动识别按钮,只见古籍影像上立刻出现一个个不断闪动的格子,自动套住图片上的每个字,相应的文字就按照古籍上文字的排列顺序出现在页面。这一过程不过数秒。
“人工智能在古籍数字化中的应用有效提升了古籍整理的效率。”古联公司总经理洪涛说,以籍合网OCR(光学字符识别技术)识别为例,5分钟的OCR识别相当于人工录入20小时的工作量,而且错误可以降低75%。“这对传统纸本古籍整理效率的提升是巨大的,”洪涛说,人工智能解决了大型古籍整理项目耗时耗力、过久过多的现状。
以西泠印社“刻在石头上的浙江”系列丛书为例,古联公司编辑部参与了包括《东瓯金石志》等在内的9种金石类古籍的整理,共计约147万字。在整理过程中,全流程利用智能整理技术辅助工作。首先用OCR识别底本文字,然后采用线上众包模式开展底本校对工作。校对后的稿件通过自动标点功能进行标点,标点后的稿件再交由编辑进行校勘和通读审稿。在这种工作模式下,编辑部仅用时4个月就完成了全部稿件的整理工作和部分编辑工作。“这样的速度在以前是不可想象的,只有在人工智能时代才能成为现实。”洪涛说。
人工智能正在变得越来越“聪明”,现在对版刻本的识别准确率可达98%。即使对行夹注、眉批、行间批注、表格等不规则的古籍版面,不仅能准确识别文字,还能通过针对性训练优化分区效果,从而避免出现虽然单字识别正确,但阅读顺序颠倒错乱不能复用的情况。
以往给古籍断句和加标点,需要经验丰富的专业人士手动进行。但现在人工智能可以实现机器自动断句、自动标点。洪涛介绍,目前研发的自动标点技术,断句准确率平均达到98.46%,标点准确率达到93.94%,专名线书名线自动标注准确率达到92.15%,标点标线后的古籍文本更方便阅读、理解和研究。
“如果人工智能不介入,完全依靠人力,古籍数字化全部完成可能还需要上百年的时间,但有了人工智能,完成全部古籍的数字化也许只要二三十年。我们对此有信心。”王宇举例说,百衲本《二十四史》将近4000万字,但利用人工智能,识典古籍北大整理团队仅用3个多月就完成了识别、点校、上线发布。
尽管经过人工智能处理的古籍文本准确率已经很高,但依然需要人工核校。特别是一些异体字、冷僻字,以及特殊格式的古籍,更是离不开专业古籍工作者的核校。
“人工智能并不能完全取代人,人工智能的优势在速度,而人的优势在精确和创造性。通过人机协同、人机互补,可以大幅提高古籍整理出版的效率和质量。而高质量的、学术性的古籍整理工作依然需要专家学者长期不懈的努力,不可能被计算机所替代。”洪涛说。
古籍整理进入大众化时代
古籍整理是专业性很强的工作,但在人工智能高速发展的今天,古籍爱好者也可以参与古籍整理。其流程大致是这样的——
经过人工智能处理的古籍文本,通过互联网分发给在线编校人员,后者在电脑上对照古籍底本高清图像,逐字逐句审阅,并在古籍整理平台上修改。管理员借助平台的版本比对功能审阅修改记录,判断是否合格。
古联公司建立的全国第一个古籍整理众包平台正是这样运作的。从2018年上线以来,籍合网古籍整理众包平台积累了近5000人的在线古籍编校队伍。这些在线古籍编校者绝大多数都是业余人士,有大学生、图书编辑、律师、教师,也有公务员、金融界人士、自由职业者等。爱好文史、熟悉互联网是他们的共同特征。
全书近2亿字的《中华大藏经·续编》通过众包模式,在全球900多位业余审校者的参与下,仅用时两年就完成了两个校次的底本校对与审核工作。“古籍整理众包工作模式不仅解决了大型古籍整理项目在人力方面的需求,更重要的是解决了地域限制和个体时间分散、随意的难题,使人力和时间都得到了充分的利用。”洪涛说。
“青年一代对中华传统文化的认知和热爱,是推动古籍事业高质量发展的重要推力。”张志清说。
目前,一支2300余人的古籍志愿者队伍活跃在字节跳动公司。每次识典古籍发布古籍审校任务,志愿者们就会在群里认领,往往是“秒光”。手速稍慢,任务就被人领走了。
古籍志愿者许黧丹参与了《茶苑》和《鸡足山志》两部古籍的文字校对和结构整理任务。“亲自参与,大受震撼,完全颠覆了我的认知。原来,只是轻轻滑动鼠标就能浏览到的内容,背后凝结着这么多复杂的步骤和这么多人的心血。”许黧丹说,“除了为古籍数字化做出自己的微薄贡献,还结交了志同道合的朋友,自己也增长了不少见识。我们都在期待下一次的古籍整理任务了。”
在人工智能的帮助下,未来的古籍数字化还会有怎样的进展?
洪涛认为,目前的古籍数字化仅仅是一个开始,未来可以利用人工智能进行古籍的辑佚、汇编、注解、翻译、检索、索引甚至考证和摘要工作。而更重要的是,利用人工智能开发古籍,用古籍蕴含的浩瀚素材创作生成内容。
“比如,创作一部历史题材的影视剧就可以让人工智能从古籍里寻找相关素材,自动生成故事。创作者在此基础上继续修改。这个过程不断循环,就能创作出高质量的作品。我们离这一天已经越来越近了。从这个意义上说,中华古籍是一座宝藏。”洪涛说。