非结构化参考文献提取和管理方案研究.docVIP

非结构化参考文献提取和管理方案研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
非结构化参考文献提取和管理方案研究

非结构化参考文献提取和管理方案研究   摘要:随着信息技术的发展,出版行业逐渐将采集、编辑等流程转移到计算机上进行,实现从传统出版到数字出版的转型。图书出版物中参考文献具有重要意义。现有参考文献管理工具在运行时,大多要求在图书编撰的起始阶段介入,并需要用户自行从外部获取结构化的参考文献信息。在数字出版系统中,图书内容由投约稿作者提供,具有大量非结构化文本,难以进行管理。针对这一问题,研究了GB/T 7714-2005文后参考文献著录规则,运用正则表达式匹配等技术手段,提供了一种非结构化文本中参考文献的提取和管理方案。   关键词:数字出版;非结构化;GB/T 7714-2005;正则表达式;参考文献   DOIDOI:10.11907/rjdk.161079   中图分类号:TP319   文献标识码:A 文章编号:1672-7800(2016)005-0137-03   1 数字出版概述   随着激光照排技术的普及和互联网技术的飞速发展,出版行业产生了深刻变革,数字出版受到行业和学术界的广泛关注。   20世纪70年代以来,王选院士主持的方正激光照排系统迅速产业化并被市场广泛接受,出版行业中录入、排版、校对、印刷等主要流程开始向数字化转变。随着互联网时代的到来,出版行业在数字技术的应用上不断尝试,出现了电子出版、互联网出版、泛媒体出版、跨媒体出版、全媒体出版、复合出版等多种出版形式。然而,上述概念局限于数字技术在特定出版流程或介质上的应用,不能在全局层面上描述层出不穷的数字媒体。自2005年起,我国出版界提出了数字出版概念,涵盖了近年来新出现的数字媒体,受到业内的广泛认同。这一概念的提出,体现出业界对应用数字技术后出现的一系列新型出版形态的认识越来越深入,在技术层面概括了新出版形态的本质特征。与传统出版相比,数字出版技术的优势体现在:传播速度快、范围广、形式多样;出版内容时效性强;信息交流更加具有互动性;提供个性化服务;支持海量存储;内容便于检索和二次加工;制作和发行成本较低。   近年来,我国的数字出版产业所占比重越来越高,数字出版高速增长。在数字出版快速发展的同时,我们还要清醒认识到其中存在的问题:大多数数字出版产业的数字化仍处于较低水平,单纯将纸质内容通过技术手段转化为数字内容,产品内容结构仍然沿用传统出版模式,没有对数字内容资源进行结构化、知识化处理,无法使产品增值,受限于出版类型和投资规模的约束,还没有出现类似Elsevier和Springer的大型国际化数字出版企业。据统计,全国584家出版社中,256家推出了数字出版的相关产品,但只有102家建立了专业的数字出版机构[1]。   2 内容结构化与数字出版   结构化是出版行业数字化的核心,数字化标准通过语义标签,以标题、目录、正文等文章结构和词语为基本单元,对出版内容进行结构化处理,内容结构化的程度直接影响数字化水平。出版行业的数字化,不只是内容的数字化,更重要的是实现编辑出版体系的数字化。数字编辑出版系统打破了传统出版模式中时间和空间的限制,投稿、审稿和编辑可以随时随地进行,提高了审稿效率,简化了编辑环节,提升了编辑工作的价值,在工作效率和质量上远超传统出版模式[2]。结构化是建立数字化编辑系统的基础和前提,在出版行业的数字化过程中具有重要地位,美国物理学会、BMC出版社和PLOS ONE期刊等行业先行者已开始构建出版内容存储的XML结构化规范。   我国出版行业应用的结构化数字编辑系统包括:北大方正书畅系统、玛格泰克稿件处理系统和查尔斯沃思XML排版软件等。北大方正书畅系统将科技期刊的采编系统与排版、发布系统集成,提供面向科技期刊的数字化生产流程,编、排、发一体化的同步出版解决方案。该方案通过流程化系统,贯穿期刊稿件的采编与排版环节,在满足传统纸质出版的要求下,可以同步产生包含稿件元数据标引信息的XML结构化数据,为网刊发布提供数据支撑,给科技期刊用户带来更大的附加价值。玛格泰克稿件处理系统为出版行业提供了整体的数字出版解决方案,可自动提取出版内容中的元数据和扩展数据,支持方正书版文件、Word文件和Latex文件等。查尔斯沃斯将出版内容统一转化为XML格式文件并进行结构化排版,生成XML、HTML、PDF和图片等形式的排版结果文件,能适应多种传播媒介。   上述几种数字编辑系统均包含业务流程再造[3]环节:在出版流程中,为满足互联网和移动设备用户的需要,内容生产、加工、发布等环节需要进行再造,从生产源头对出版内容进行结构化和元数据标引,实现动态出版。只有结构化的内容,才能被数字出版系统导入并提取知识。受益于良好的设计,方正书版文件和Latex文件本身已具有较高的结构化程度,然而在数字出版领域中,Word仍然是作者投稿时使用的主流

文档评论(0)

151****1926 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档