- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
图书内容资源结构化方法
传统出版单位要在现代出版中胜出,关键在于对优质内容资源的占有和整合,谁占有优质的出版资源并具有整合的能力,谁就占据行业的制高点。数字出版业务最为核心的工作就是内容资源的积累与整合,缺乏海量内容资源的支撑,数字技术与网络技术带来的便捷性就无法实现。国内大多数出版社自主发展数字出版业务面临的最大困难之一,就是结构化的内容资源有限,无法满足数字出版对海量内容的重组和多方面应用的要求。
获得结构化的内容后,可以以多种形式复合发布作品:
* 保持作品原有内容直接进行各种形态的数字出版,比如以章节为单位的内容的销售、图片的销售。
* 根据不同的用户群体抽取不同的内容进行针对性的出版,最直接的就是教辅类图书的教师用书和学生用书。
* 对作品进行深度加工,对内容进行重新编排组织,形成新的内容形式,如交互性更强、更合适的阅读体验,为读者提供更方便合适的阅读服务。如依不同标准、篇幅等对工具书的条目重新抽取,形成针对不同媒体、不同读者对象的新的工具书。
* 海量内容资源库的知识服务。
在数字出版时代,新的出版模式将不可避免地给现有出版格局带来新的挑战,这些挑战要求跨媒体、跨部门更紧密地合作,要求部门产品线融合、细分、互补,要求摸索出制度化、程序化的运营新思路和管理新模式,建立起可重用的结构化内容资源库,最终形成跨媒体、专业性、分层次的数字复合出版发展格局,使出版产品资源配置更趋于合理化、规模化,为出版单位的内容产品树立扎实、长期的市场竞争优势,而可重用的结构化内容资源库的基础是传统图书内容的结构化。
图书内容资源结构化考虑的要点
目前,我国绝大部分出版社的编辑、审稿过程依然在纸面上进行,因此,数字化的出版内容资源往往要到成书时依靠排版文件才能获得,而此时的排版文件中,书稿内容已经被排版指令所“污染”,书稿的知识体系或逻辑结构也很难被识别,所以,排版文档除了用于书稿的再次印刷外,能直接被作为数字化资源而利用(如数字出版)的几率非常低,这使得出版社想通过数字化技术对已出版的内容进行重新组合、再次使用几乎不太可能。这就要求出版单位研究以下问题。
第一,合作伙伴的选择。考虑到目前出版社大部分的排版文件是方正“书版”文件,所以项目的研发团队的研究重点是:由计算机系统对当下数字出版内容资源的主体――方正“书版”的排版文件进行较高程度的自动化分析并完成结构化工作,实现将排版文件中的书稿内容数据与排版指令分开,还原书稿的知识体系或逻辑结构(不同类型的图书分别表现为不同的形式,如章节结构、词条结构、习题结构等)的目标,以便将数字出版内容资源在新的介质上进行发布传播,或根据出版要求重新组合,产生新的出版价值。
以上所述的“还原书稿的知识体系或逻辑结构”的过程,被称为“反解”。
第二,内容结构化反解时对内容正确性的要求。
文件版本处理:只需指定排版文件的版本,统一版本的工作由后台规范化引擎自动完成。
图像格式转换:对旧格式的图片如EPS进行统一处理,转换为当前流行的图片格式,如TIFF、JPEG等。
补字处理:将历史资源中的补字转换对应到新的编码体系中,并解决在一般环境下对补字的正常显示和输出。
特殊符号:将历史资源中特殊符号进行提取和转换,以达到入库及重用的目的。
数学公式、表格的处理:可提取数学公式和表格进行内容的转换,不仅仅要求达到入库查看的目的,而且将来可以再被编辑。
第三,内容结构化反解的完备性和易用性。
* 提供由智能标注及少量人工辅助标注两部分功能组成的图形化的交互式标注工具,可以方便地从中间文档格式提取要标注的章节、知识点、图片、公式、表格等内容,组织成结构化的XML格式。
* 识别各种用于编排标题的书版标记,形成结构化文档中的各级标题,文字内容自动按各级标题切分,每个标题对应结构树上的一个节点,各级标题按照所属级别构成分层结构。
* 支持通过规则映射的方式对一些采用不规范方式描述的标题内容进行智能识别。
* 支持大样与小样、结构与小样之间两种不同模式的互动操作。
* 支持大样的分页预览以及针对公式、图片、表格的划区标注。
* 支持跨栏或跨页内容的标注,并允许结点及其结点内容的合并。
第四,内容结构化反解后语义的准确性。
* 辞书条目类拆分后语义的准确性。
* 教材教辅类拆分后语义的准确性。
* 论著类拆分后语义的准确性。
根据以上分析的要点,我们选择了几本非常有代表性的图书进行研究,分别是论著类的《收入和财富分配不平等:动态视角》、教育类的《教育大词典》、辞书类的《英汉大词典》作为验证的标准,并通过较大规模的实际运用来验证研究成果。
您可能关注的文档
最近下载
- 2025年山西通用航空职业技术学院单招职业适应性测试题库(全国通用).docx VIP
- 串联式吸附器变压吸附制氧.pdf VIP
- 高教社2024商务礼仪第四版教学课件-2024-01初识商务礼仪.docx VIP
- 会考语文河北试卷及答案.doc VIP
- 奥迪A4保养手册.doc VIP
- AQ 4230_粮食平房仓粉尘防爆规范.pdf VIP
- 2025年宁夏数学(专升本)真题及答案.docx VIP
- 《99.5%纯度变压吸附制氧与氧气提纯一体化系统》编制说明.pdf VIP
- YD 5214-2015 无线局域网工程设计规范.pdf VIP
- 2024年广东省基层住院医师线上岗位培训《推拿技术》答案-中医学专业培训课程专业课.docx VIP
原创力文档


文档评论(0)