科技文献元数据自动抽取研究述评.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2013 年 第22 卷 第 3 期 计 算 机 系 统 应 用 科技文献元数据自动抽取研究述评① 龚立群, 马宝英, 常晓荣 ( 昌吉学院 计算机工程系, 昌吉 831100) 摘 要: 首先从元数据的属性和元数据的粒度两个角度对科技文献元数据进行了分析, 在此基础上, 从科技文献 元数据自动抽取的理论研究和应用实践研究两个方面对国内外科技文献元数据自动抽取研究成果进行分析和综 合, 最后指出了现有研究的特点和存在的不足. 关键词: 科技文献; 元数据自动抽取; 基于规则的抽取; 基于模板的抽取; 基于机器学习的抽取 Literature Review on Automatic Metadata Extraction of Scientific Paper GONG Li-Qun, MA Bao-Ying, CHANG Xiao-Rong (Computer Engineering, Changji College, Changji 831100, China) Abstract: From the perspectives of metadata attributes and metadata granularity, the metadata of scientific paper is analyzed. On this basis, the research on metadata extraction of scientific paper in domestic and international are analyzed and synthesized from two aspects of the theoretical research and application in practice. Finally, the features and shortcomings of the current research are pointed out. Key words: scientific paper; automatic metadata extraction; rule-based extraction; template-based extraction; machine-learning extraction 在传统的图书馆中, 文献的元数据信息(如标题、 元数据, 而另一文献则可能包含标题、作者、出版者等 作者、参考文献等)往往由文献的生产者(作者)或加工 元数据; 不同文献中的元数据的出现顺序可能不同. 者( 图书馆员)手工抽取或录入的. 但随着目前网络上 近年来, 国内外学术界对科技文献元数据的自动 的科技文献数量激增, 单靠人工抽取或录入这些元数 抽取展开了相应的研究(如基于机器学习的元数据自动 据已不太可能, 另外, 大量的遗留纸质文档中的信息 抽取研究、基于规则的元数据自动抽取研究), 业界也设 在转化为数字文档的过程中, 也需要能够自动抽取这 计和开发了一些科技文献元数据自动抽取工具( 如 些文档中的元数据. Metadata Miner Catalogue Pro 、MetadataExtractor 等). 本 元数据自动抽取是信息抽取(Information Extraction, 文在综述国内外科技文献元数据自动抽取理论研究和 IE) 的研究内容之一, 科技文献元数据的自动抽取能够 应用实践研究的基础上, 探讨科技文献元数据自动抽 充分利用科技文献本身所具有的内在结构信息来实现 取的研究进展, 并指出现有研究的特点和存在的不足. 信息抽取, 可以看作是面向领域的信息抽取. 对数字图书馆中大量的异构的科技文献实现其元 1 科技文献元数据概述 数据的自

文档评论(0)

phljianjian + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档