面向科技文献的混合语义信息抽取方法研究.PDFVIP

面向科技文献的混合语义信息抽取方法研究.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第57卷 第11期 2013年6月 面向科技文献的混合语义信息抽取方法研究 ■ 冷伏海 白如江 祝清松 [摘 要]针对目前知识抽取技术无法精确抽取学术文献中提及的具体理论方法和性能指标参数等问题, 综合运用语义标注技术、规则抽取技术以及正则表达式技术,提出一种面向科技文献的混合语义信息抽取方 法。该方法首先对科技文献进行语义标注,得到相关学术术语。然后,构造抽取规则,抽取文献提及的与具体 性能指标相关的句子。最后,采用正则表达式技术从相关句子中精确抽取出关键性能指标。对碳纳米管研究 领域科技文献语义的信息抽取证明,该方法能迅速、有效和准确地抽取科技文献主要创新研究内容和性能 指标。 [关键词]科技文献 信息抽取 语义标注 正则表达 [分类号]G350 1 引 言 出的文本处理技术[1]。从 20世纪 80年代开始,在 [2] MessageUnderstandingConference(MUC) 、Automatic   科技文献反映了人们在一定社会历史阶段的知识水 [3] ContentExtraction(ACE) 以 及 TextAnalysis 平,蕴含着重要的科技创新与科学发现,是人们获取知识 [4] Conference(TAC) 等评测会议的大力推动下,文本信 的重要媒介。随着数字图书馆技术的发展,科研工作者可 息抽取技术的研究得到蓬勃发展。 以方便地获取大量的数字科技文献。然而,目前面临的问   目前,信息抽取主要有两大方法:一是知识工程方 题不是找不到相关文献,而是如何快速从检索出的大量相 法(knowledgeengineeringapproach),二是自动训练方 关文献中找到自己需要的知识。这也是信息抽取研究领 法(automatictrainingapproach)。 域的重要研究内容之一。   知识工程方法主要靠手工编制规则使系统能处理   目前信息抽取研究领域对文献内容抽取的研究主要 特定知识领域的信息抽取问题。这种方法要求编制规 涉及到主题词与关键词的抽取。就文献篇章而言,主要是 则的知识工程师对该知识领域有深入的了解。这样的 涉及到文献的分类、聚类和专题知识的挖掘分析。然而, 人才比较稀缺,且开发的过程可能非常耗时耗力。早 科研人员需要的是迅速获得科技文献论述的主要工作 期的信息抽取工作主要是基于知识工程的方法,主要 (创新点)、使用的实验方法、用到的主要设备以及实验结 研究基于规则的信息抽取和正则表达式的信息抽取研 果的指标。本文综合运用信息抽取领域内的语义标注技 究。具体例子包括 FRUMP、CIRCUS和FASTUS。通用 术、基于规则的信息抽取技术以及正则表达式技术,提出 一种面向科技文献的混合语义信息抽取方法,实现对科技 模式规范语言(CommonPatternS

文档评论(0)

sunyangbill + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档