让书写在古籍里的文字活起来——中华书局古籍知识服务探索与实践

来源:中华书局 类型:古籍出版/整理新闻 日期:2018-05-07 00:00:00.0



古籍作为中华文明的历史见证,维系着中华民族优秀传统文化的根脉。古籍的开发和利用是一项事关中华传统文化事业发展的基础性、全局性和战略性工作。如何“让书写在古籍里的文字活起来”,实现中华优秀传统文化创造性转化和创新性发展,这是当代古籍数字出版工作者肩负的历史使命。


一、认识:知识服务是古籍

数字出版发展的未来


古籍的内容、形式、利用都不同于图书、期刊等其他类文献资源,在文字、语言、检索、阅读等多个方面存在着应用障碍。但随着网络信息技术的发展以及古籍数字化工作的推进,古籍数字出版正迎来了一个重大变革,古籍内容的传播形式和途径发生了巨大变化。用户所面临的问题不再是古籍文献的缺乏,而是各种古籍内容的泛滥和“信息爆炸”背景下的“知识缺乏”。


当前“以文献为中心”的文献检索和信息获取方式已不能满足用户的需求,取而代之的是“以知识为中心”的结构化、网络化和智能化的用户服务正成为古籍数字出版的发展趋势。


知识服务是用户目标驱动的服务,它根据问题和问题产生的环境来确定用户需求,通过动态分析和内容重组来形成恰好符合需要的知识产品。它关注的焦点不是“我是否提供了你需要的信息”,而是“是否通过我的服务解决了您的问题”。


具体到古籍出版领域,这种用户贯穿知识捕获、分析、重组和应用过程的连续服务,不仅能改善“大部头读不下去”、“文言文看不懂”等古籍出版现状,而且也能彻底激活古籍资源的内容价值,使其全方位融入国民经济、教育和文化等各个领域、各个环节。古籍及其承载的知识只有与人民生产生活深度融合,才能拥有长久生命力,真正实现活起来、传下去。


二、探索:建立古籍知识服务体系


开展古籍知识服务工作,重点在于要从内容开发与满足用户需求两个点找到一条适合自身发展的途径。中华书局基于已出版的大量优质古籍图书资源以及主要用户群体生产、科研、教学和学习等特定需要,构建了一套完整的古籍知识服务体系,为古籍数字化加工、内容资源组织、数字产品建设和知识服务等工作提供了重要支撑。


1

突破古籍数字化瓶颈

古籍数字化技术难度大,加工质量差且成本又高,是制约古籍数字出版发展的一道障碍。中华书局十年磨一剑,在古籍数字化工作上取得了重大突破。首先,通过多年积累建立11余万字的字库,解决了绝大部分古籍生僻字、异体字和字符集外字等用字难题,满足了传统纸质古籍文献全文本数字化加工要求。


图源:《南国早报》  王铎 漫画


其次,立足内容,进一步做强做优内容主业。根据实践探索,先后制定《资源表示规范》《文献结构化规范》《知识组织规范》等十余个企业标准,详细规范了古籍文献的XML结构元素和数字化加工业务流程。并依靠具有学科背景的数字编辑深入到古籍内容和专业领域,标引细化到“字词”粒度的知识元,达到了内容解析、编辑、加工以及知识重组等应用要求。


2

建立古籍知识资源库

要实现古籍知识服务,满足用户个性化知识需求,就必须要有海量的内容做支撑。因此,如何快速集聚内容资源当量是古籍知识服务必须要解决的问题。而每种古籍都是一个知识整体, 包括古籍图像、文本、概念和元数据等内容,要形成可结构化的、可碎片化的以及可关联的内容素材,就需要对每个独立的知识单元进行有效整合,最终形成系统化、规模化、专业化的知识库。


中华书局自建的古籍知识资源库,可根据历史人物、地名、事件、纪年等知识体系,把不同类型、不同颗粒度的古籍文献内容关联、整合和集聚起来,实现古籍知识存储、编辑标引、知识挖掘和知识发现等功能,满足了古籍内容价值深度挖掘和再创造需求。


3

构建古籍知识关联网络


由于古汉语与现代语言之间的差异,特别是专业字词间语义的差别,会严重影响古籍内容的开发使用。这就要求建立古籍知识关联网络,以进一步发现古籍内在的隐含知识,使传统的古籍内容大大增值。


中华书局通过“中华基本史籍知识库”等项目的建设,构建了包括四部分类、主题词表、人名表、地名表、事件表、篇目表、纪年表等一套复杂的知识体系。截止到目前,已建分类类目1.5万余组,主题词22万余条,专名词近37万条,包含相关、相等、参照等十余种关系属性,形成了一个立体、多维、多用途的古籍知识关联网络,大大增强了古籍知识服务功能。


三、实践:开展古籍知识多元化服务


古籍知识服务最终的立足点是在用户“服务”上,需要有一套完备的平台或产品运营体系,并通过不断满足不同用户的各种需求,来促进整个出版社在内容、技术、运营等方面的创新升级。


1

产品集群服务


2017年底,基于古籍知识资源库和知识关联网络建设成果,中华书局全力打造的国内首个古籍知识服务平台“籍合网”正式上线运营。它面向读者、作者、出版社等用户提供古籍文献阅读、知识检索、个性化产品定制、学术资讯和社交等一体化知识服务。


其内容以中华书局出版的优质古籍图书资源为基础,同时吸收凤凰出版社、齐鲁书社、巴蜀书社、岳麓书社、天津古籍出版社等多家专业社的古籍整理成果。形成了以“中华经典古籍库”为代表的,包括“中华文史学术论著库”“中华古籍书目数据库”“中华善本古籍数据库”“中华文史工具书数据库”等近十个产品群。用户不但可以按需个性化定制内容,而且还可以根据机构或个人用户自由选择镜像安装、在线、手机微信等服务形式。


2

古籍整理出版服务


为了推动古籍传统出版与技术的融合,实现面向学术界、出版界的古籍整理出版线上线下联合运行,中华书局研发了在线“古籍整理工作平台”。该平台以传统古籍整理出版业务流程为参照,通过任务申领、众包等形式实现古籍协同整理工作,并可实时对外发布最新古籍整理成果。平台整理者不但可以直接调用“中华经典古籍库”等平台内容做参照,还可以通过古籍整理平台的标点、注释、校勘、翻译等功能实现智能化古籍整理。目前,通过《中华大藏经》项目在平台运营情况了解到,平台不仅仅提高了古籍整理工作的效率,缩短了古籍整理出版周期,而且还通过网络形式有效调动了古籍领域专家、学者的积极性,高效激活了整个古籍整理出版活动。


3

编校技术服务

2016年,在国家新闻出版广电总局授牌下,由中华书局牵头,中国科学院软件研究所、中国科学信息技术研究所和中科软科技股份有限公司共同建设成立了“古籍数字化与知识工程重点实验室”。成员囊括国内多名计算机科学、图书情报学、文字学、文献学等学科领域的专家和高层次人才。一年多来,实验室在古籍分词、专名标注、机器标点、机器翻译等古籍数字化与知识服务的关键技术上取得了重要进展。目前,面向传统出版编辑的“古籍引文校对系统”已进入运营测试阶段。它使用了古籍自然语言处理、机器学习等先进技术,编辑只需几分钟就可轻松完成对整本文稿的标点符号、规范字以及引文等错误的校对及修订工作。


(选自《中国出版集团报》2018年第3期)