运用图示法自动提取中文专利文本的语义信息.pdfVIP

运用图示法自动提取中文专利文本的语义信息.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
运用图示法自动提取中文专利文本的语义信息

第59卷 第21期 2015年11月 运用图示法自动提取中文专利文本的语义信息 ■ 姜春涛 南京大学计算机科学与技术系  南京210023 江苏省专利信息服务中心 南京210008 摘要:[目的/意义]提出利用图结构的表示法自动挖掘中文专利文本的语义信息,以为基于文本内容的专 利智能分析提供语义支持。[方法/过程]设计两种运用图结构的模型: 基于关键词的文本图模型; 基于依 ① ② 存关系树的文本图模型。第一种图模型通过计算关键词之间的相似性关系来定义;第二种图模型则由句中所 提取的语法关系来定义。在案例研究中,借助频繁子图挖掘算法,对所建图模型进行子图挖掘,并构建以子图 为特征的文本分类器,用来检测所建图模型的表达性和有效性。[结果/结论]将所建的基于图模型的文本分类 器应用于4个不同技术领域的专利文本数据集,并与经典文本分类器的测试结果相比较而知:前者在使用明显 较少的特征数的基础上,分类性能较后者提升2.1%-10.5%。由此而推断,使用图结构的表达法并结合图挖 掘技术从专利文本中所提取的语义信息是有效的,有助于进一步的专利文本分析。 关键词:图示法 专利信息提取 频繁子图挖掘 专利分类 分类号:TP391   DOI:10.13266/j.issn.0252-3116.2015.21.017 1 引言 要更加丰富而全面。为了准确地提取有关中文专利发 明内容的语义信息,同时又能降低提取过程的计算复   近10年来,专利文本自动处理技术被广泛地用于 杂性,本文提出针对中文专利说明书的发明内容部分 [1] 专利信息应用的各个层面,包括专利信息检索 、专利 的文本,利用图结构的表示法(graphrepresentation,简 [2] [3] 分类 和专利引用分析 等。专利文档的平均长度要 [4] 称图示法)来自动提取中文专利发明内容的语义信息, 比新闻长24倍 ,这使得人工进行专利信息的提取成 而所提取的语义信息则由图来表示。这样在图表示的 为一项耗时又耗力的任务。传统的专利信息提取方 [5-6] 基础之上,大量的图处理技术(如graphmatching、graph 法 是通过使用模式匹配或模板来实现的,并且集 mining)就可以被应用于专利文本的自动处理,如专利 中于利用专利文档中的权利要求书或说明书摘要部分 [9] [10] [7-8] 摘要 、专利比对分析 等。与经典的专利文本表示 的文本,有少数学者 从专利说明书的背景技术和 [11] 具体实施方式部分的文本中进行引用文献自动提取的 法 相比,本文所提出的图示法面向中文专利文本, 研究。然而权利要求书包含大量冗长而复杂的句子和 不仅利用了词语频率,而且还充分考虑到文本中所隐 技术领域术语,专利说明书除了文字描述更长,还包括 含的句子结构、语言以及语义信息。在应用图示法的 图、表、公式、符号等各式各样的信息,而人工撰写的说 背景下,本文提出两种不同的图模型:基于关键词的文 明书摘要的质量往往不尽如人意,这些特性以及专利

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档