元数据自动抽取研究新进展.pdfVIP

下载本文档

75
0
约 6页
2015-09-26 发布于重庆
举报
版权申诉

元数据自动抽取研究新进展.pdf

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

元数据自动抽取研究新进展

《现代图书情报技术》 2008 年第 4 期元数据自动抽取研究新进展∗ 1,2 1 1, 曾苏马建霞张秀秀１（中国科学院国家科学图书馆兰州分馆兰州 730000） 2 （中国科学院研究生院北京 100190） [摘要] 分析了元数据自动抽取的现实需求,对元数据自动抽取的相关研究进行了阐述,然后对 DROID 、 NLNZ Metadata Extractor 、Metadata Miner Catalogue PRO 三种典型的元数据自动抽取器进行了分析比较；在提出目前元数据自动抽取技术局限性的基础上，对该技术作了总结和展望。 [关键词] 元数据；自动抽取；抽取器 [分类号] G250.76 New Development of Automatic Metadata Extraction Zeng Su (Lanzhou Branch, National Science Library, Chinese Academy of Sciences, Lanzhou 730000) (Graduate University of Chinese Academy of Sciences, Beijing 100049) Ma Jianxia (Lanzhou Branch, National Science Library, Chinese Academy of Sciences, Lanzhou 730000) [Abstract] This paper analyses realistic demands of automatic metadata extraction, elaborates related research on automatic metadata extraction and compares three typical automatic extractors of metadata: DROID, NLNZ Metadata Extractor and Metadata Miner Catalogue PRO. On the basis of discussing present limitations of automatic metadata extraction, the article gives a summary and prediction of this technology. [Keywords] metadata; automatic extraction; extractor 1 元数据自动抽取的现实需求随着当代信息技术的飞速发展，以印刷型书刊资料为主要收藏载体的传统图书馆逐渐难以适应信息社会不断增长的信息需求，E-only 、E-first 为主要特征的数字图书馆必将成为科研人员的主要信息源。元数据为数字图书馆的信息单元和数据集合提供规范、普遍的描述方法和检索工具，并且为其分布、异类资源的信息体系提供整合的工具与纽带。元数据对数字图书馆而言至关重要，离开了元数据的数字图书馆将无法提供有效服务。然而面对海量文献描述的需要，如何快速、高效产生元数据成为数字图书馆建设过程中的一大难题。元数据主要有人工输入和自动生成两种方式，人工输入又可分为作者、信息加工人员两种。当前数字图书馆建设过程中，由于没有规定作者必须提交文档的元数据信息，元数据大部分由图书馆员逐条输入。这不仅花费了大量的人力、物力和时间，而且也越来越不能满足海量文献描述的需要。若元数据可以自动生成、自动抽取，必将大大减轻信息人员的的工作负担和极大地提高工作效率，而且可以避免元数据人工录入过程中的主观性和不准确性。 2 元数据自动抽取相关研究目前国内外学者对元数据自动抽取已有不少研究，主要可分为以下几类： ∗本文系国家社会科学基金项目“机构知识库建设与应用研究”(项目编号：07BTQ019) 的研究成果之一。