- 23
- 0
- 约3.86千字
- 约 7页
- 2016-09-25 发布于北京
- 举报
资源库数据建设:数字出版的重中之重.doc
资源库数据建设:数字出版的重中之重
在数字化转型升级过程中,中国建筑工业出版社实现了全媒体形态的预期目标。转型升级内容覆盖了从选题策划、内容组织建设到产品研发、产品销售的全业务、全流程,开发了涵盖电子书、网络课程、数据库和移动阅读App等产品。数字产品包括,已上线的“中国建筑出版在线”、工具书在线、“建筑文库”移动阅读、数字期刊平台等,另外还完成了英文图书元数据的推送等工作。这些多形态的数字产品,是建立在本社海量的资源库的数据基石之上的。利用资源库现有的资源,可以对图书内容实现结构化、碎片化、富媒体化;通过元数据标引、数据挖掘、数据关联,可以实现个性化、定制化服务,以便适应不同终端用户的个性需求。所以,资源库的数据建设、维护和管理是数字出版的重中之重,否则,前端多形态数字产品就将成为无源之水、无本之木。资源库工作庞杂繁复,如何让资源库的数据建设完善、规范有序,是数字出版中心相关人员必须不断思考的问题。
资源库的数据建设:要有独有的加工标准
资源库的数据建设从前期规划到具体实施是一个复杂的系统工程,也是一个从摸索中不断走向完善的过程。在这个过程中,我们致力于数据建设逐步趋向规范化和标准化。
资源库数据形式按内容可分为原始数据和基于原始数据的再加工数据;数据处理按加工手段可分为数据采集、审核、分类加工、发布等。
原始数据主要分为,从ERP和在线编纂系统采集到的图书信息,排版厂提交给出版社的排版文件和链接图,在线编撰的过程文件及最终文件等。
再加工数据包括:可带链接的、用于在线发布的PDF文件;结构化的WORD文档;EPUB文件;CEB文件等。
资源库的数据建设,按流程顺序,可分为图书详情信息采集、排版文件、图片、PDF、EPUB的采集(该采集是用定制的采集工具在内网批量上传)、标引、加工、审核、发布等。这些流程经过两年多的运行和经验积累,已形成建工社自身特色的加工标准:
⑴采集信息的唯一性。定期从在线平台或ERP系统读取已正式出版发行的纸质图书、电子图书。该阶段主要是读取图书详情信息,诸如:社书号,丛书名,书名,装帧,开本,定价,ISBN,图书销售分类,中图分类号等。读取的全部信息在库中留存,主要信息用于外网发布。采集时需要注意的是,出版资源库要坚持“一书一号”原则,即同一本书所有信息都能最直接地从一个入口找到相关的信息,同一个社书号,无论版次只能有一个建档。本书所有信息操作都是基于这个唯一的建档号。不仅如此,还要做到系列丛书能够有效关联,甚至后台资源之间、前台的不同站点之间也要能有效关联。
⑵采集信息的准确性。从ERP采集到的信息因各种原因,会存在信息不完整或有错漏的情况,需要人工标引。
要素标引完毕,还有“精编”项目:内容提要和目录内容。该内容可从ERP或排版文件读取,如不能读取则需人工录入。为保证采集到的图书信息准确,标引之后多人审核是必要的,审核无误后才可发布到外网。
⑶排版文件、图片、PDF、EPUB的采集。由排版厂提交到本社的排版文件和图片一般滞后于信息发布1-3个月。数字出版部门收到排版文件后,要对文件做两项必要的检查。一是要保证内容的正确性。二是检查排版文件的完整性。
内容检查无误后,可以用采集工具来按类型分门别类地批量采集。在采集工具中,不同数据类型如同一个个“盒子”,启动批量采集时可自动归入到相应的“盒子”中去。同一书号、不同版次的文件,不可采用批量方式,标明版次后需人工逐个插入到相应的资源文件夹中。可供采集的数据有:封面及正文排版文件、PDF、EPUB、CEB、插图、经典资源包等。
PDF文件在采集之前,要严格区分高精度(用于内网存档或内部职工因需调用)、低精度(用于外网售卖的电子书)、正文样张(用于外网读者的10%免费翻阅),批量上传。EPUB文件直接批量上传即可。
⑷数据加工。分基本加工和深度加工两种。
基本加工:是将排版文件加工成CEB,PDF,EPUB等格式。必须注意的是,PDF文件用于外网发布时,使用低精度,同时还要批量拆分10%的PDF文件用于PC端客户的免费浏览;用于资源库留存的PDF文件则应生成高精度。既有图书中,如果没有排版文件的电子版,可将纸质图书经过扫描生成PDF文件,整合成一个文档,通过OCR识别,扫描的PDF中的文字内容可以识别,可视为“字符”形式,以便内容检索和查找。
深度加工:主要是指将PDF文件、EPUB文件、由自动引擎版面回写的WORD文档,在已有的结构化基础上,按需进行深度碎片化、富媒体化。以建工社为例,经过深度加工成功推出了数字期刊平台,终端用户可通过检索期刊的栏目、标题、作者、文献,订制自己需要购买的文章。
⑸审核和发布。纸质图书的“编、校、印、发”有其完备的运
原创力文档

文档评论(0)