基于GATE的中文专利摘要的抽取.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于GATE的中文专利摘要的抽取.pdf

一偷料黼磕谳云 基于GATE的 中文专利摘要的抽取米 口姜彩红乔晓东朱礼军桂婕张运良/中国科学技术信息研究所北京100038 摘要:专利摘要中含有重要的内容,文章通过对“新能源汽车”中文专利摘要的阅读和分析,提出了一 种专利摘要内容判别原则。并通过对国外开源抽取工具GATE和中科院分词工具ICTCLAS的学习和改进,实现了 对中文专利摘要的批量抽取,为专利知识库的自动构建准备了充分的语料基础。该文为《数字图书馆论坛》 2008年第11期本期话题“科技创新中的专利应用研究”的文章之一。 关键词:中文专利摘要,GATE,信息抽取,数字图书馆 DOI:l0.5772/J.issn.1675-2286.2008.11.006 1中文专利摘要抽取 1.2专利摘要抽取 1.1专利摘要简介 信息抽取(Information 专利信息是一种集工业产权情报、技术情报、 术是指从文本中抽取用户感兴趣的事件、实体和关 商业与经济情报于一体的情报源,是一个博大精 系,被抽取出来的信息以结构化的形式进行描述, 深的应用技术的知识宝库【lJ。通常,在专利数据库 然后存储在数据库中,为用户进一步使用【2J。例 中,一项专利信息所含的数据特征项主要有:主 如,从新闻报道中抽取出恐怖事件的详细情况:时 分类号、分类号、公开公告号、公开公告日、申请 间、地点、作案者、受害者、袭击目标、使用的武 (专利)号、申请日、主申请人地址、国省代码、 器等;从经济新闻中抽取出症状、诊断记录、检验 申请(专利权)人、发明(设计)人、专利代理机 结果、处方等或者直接提取文章中某句话或者某段 构、代理人、专利名称、摘要等。本文将摘要称为 话的信息等。 专利内部信息,将其余项称为专利外部信息。专利 专利摘要抽取属于信息抽取技术,它是指从专 外部信息比较直观简明,而专利摘要含有的信息量 利摘要文本中抽取出用户较为感兴趣的专利的主要 则比较大,通常不能--I]I曼将其内容全部捕获。 技术要点和主要效果,并在此基础上自动构建专利 专利法26条第二款规定:专利摘要应当简要说 知识库,以便用户能够在较短时间内就能够对某项 明专利的技术要点和主要效果。因此,通过专利摘 专利信息有比较宏观全面地掌握。 要可以大体看出专利的主要技术要点和效果,专利 本文在进行专利摘要抽取中用到的工具主 摘要是记载和传递各类科技成果的信息载体。 要有文本工程通用框架GATE、中科院分词软件 但是,面对海量的专利文献,仅仅阅读摘要信 息,也要耗费大量的时间和力气。因此,如何将专 利摘要的主要内容简单直观的呈现给用户,方便用 车”方面的860篇中文专利摘要的句式特点和表达方 户了解整篇专利信息,是优化专利服务的一个关键 式的分析,收集了大量的相关词表,并撰写了相应 性问题。而专利摘要抽取正是解决这个问题的方法 的抽取规则,使其能够较好的抽取出上述信息点, 之一。 为自动构建专利知识库做好准备。 ‘车文系。十一五”国家科拄支撑计划。知识组织系统的纂成爰服务体系研究与实现。(2006BAH03803)和中国科学技术信息研究所t点工作项目。汉语科拄词系统t设与应用 成果之一. hRp:||www.dlf.net,cn 2008年第11期(总第54期) 万方数据 翁料戮i;|;耐云一 2文本通用I=程框架GATE 器、N元模型和语音识别等。这

文档评论(0)

docinpfd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5212202040000002

1亿VIP精品文档

相关文档