面向专利文本的信息抽取技术研究-计算机软件与理论专业毕业论文.docxVIP

面向专利文本的信息抽取技术研究-计算机软件与理论专业毕业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
沈阳航空:[业学院硕士学位论文摘要 沈阳航空:[业学院硕士学位论文 摘要 专利的技术方案信息是专利信息的重要组成部分,是专利作者创新精髓,是专利保 护的主要对象。然而技术方案信息是以自由文本的形式存在,因此如何将技术方案信息 转化为计算机可处理、可读、可理解的结构化形式便成为亟待解决的问题。 本文将自然语言处理领域中信息抽取技术应用于中文专利摘要文本,对其中的技术 方案信息予以抽取,并采用结构化的形式对其进行描述。本文在对专利摘要文本的特点 进行分析的基础上,提出专利摘要文本信息抽取策略并确定了专利摘要文本信息抽取流 程。采用基于线性组合核函数的方法对专利文本语句进行分类,将专利摘要语句分为描 述主题信息的语句、描述结构及运作特征的语句和描述性能优点的语句,划定信息抽取 的范围。为了线件组合核函数权重的确定问题,本文提出了一种基于多目标规划思想的 权重优化方法。根据同类样例相似性较高,异类样例相似性较低的原则,确定优化模型。 通过对模型求解,获得线性组合核函数权重。针对专利主题词抽取问题,利用专利标题 的特点采用完全无指导的方法构建信息抽取模板,抽取专利主题词。基于此种方法,减 少了人工构建模板或是标注语料的时间和劳动量。针对技术关键词关系抽取问题,采用 基于核函数的关系抽取方法。将特征分为需精确匹配特征和需近似匹配特征两类,分别 定义相似性计算方法,并将相关联的特征使用特征节点进行整合,在此基础之上定义核 函数。解决基于特征向量方法中,特征相互独立缺少联系的问题和通过点积计算某些特 征相似性的不合理性。 本文的方法在抽取主题词实验中F值达到91.20%,在关键词关系抽取的试验中F值达 到82.43%。 关键词:信息抽取:中文专利摘要文本;语句分类;专利主题词抽取;技术关键词 关系抽取;线性组合核函数权重确定 沈阳航空工业学院硕士学位论文Abstract 沈阳航空工业学院硕士学位论文 Abstract Patent technology program technical scheme information is an important part of patent infonnation,is the essence of innovation patent innovation author,and is the main object of patent protection.Patent technology programical information scheme is in the fo彻of free text,therefore how to convert it into structured form in which the infomation can be processed and understood by computer becomes a crucial problem to be solved. In this paper,we apply the information extraction technology in Natural Language Processing(NLP)to patent abstracts to extract the technical scheme infonnation,and use a 8tmctllred fonll to describe it.Based on the analysis of patent abstract texts,we propose strategies and describe the process of the extraction of technical scheme infomation.We appIY a linear∞mbination of kernels based method to classify the patent abs仃act sentences. We classifled the patent abstract sentences into those describing the topic,those describing the struc眦aIld cooperation and those describing the performance advantages,then delineate the scope of 1nforrnation extraction.In order to determine the weights of linear combination of k锄els,a mul‘i-objective optimization me

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档