基于正则表达式的专利信息提取.方法研究.pdf

基于正则表达式的专利信息提取.方法研究.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中国机械工程第 18 卷第 19 期 2007 年 10 月上半月 基于正则表达式的专利信息提取方法研究 邱清盈  郑国民  冯培恩  武建伟 浙江大学 CAD C G 国家重点实验室 ,杭州 ,310027 摘要 :针对图像格式专利文献难以进行全文检索和深入分析利用的问题 ,根据专利文献的结构特 点 通过集成光学字符识别工具和建立具有容错性的专利信息提取正则表达式 提出了专利文献的数字 , , 化和信息提取方法 。开发了相应的软件系统 ,实现了专利信息的批量提取 ,为后续高效率地对专利文献 进行自动分析和知识挖掘提供了数据基础 。 关键词 :专利分析 ;信息提取 ;正则表达式 ; 设计知识 中图分类号 : TP391    文章编号 :1004 —132X ( 2007) 19 —2326 —04 Extraction Approach of Patent Information Based on Regular Expression     ’   Qiu Qingying Zheng Guomin Feng Pei en Wu Jianwei State Key Laboratory of CAD CG , Zhejiang University , Hangzhou , 310027 Abstract : Since current patent document s are saved as image - based type such as . TIF , . PDF , and so on , t hey are difficult for f ull - text search and f urt her analysis. The approach t hat adoped t he optical character recognition ( OCR ) tool and t he fault - tolerant regular expressions was p roposed for patent digitization and information ext ractio n according to t he struct ural feat ures of patent document s. The software system was developed to support t he batch ext raction of patent information , which p ro2 vided t he data resources for t he following automatic patent analysis and knowledge mining. Key words : patent analysis ; information extractio n ; regular exp ression ; design knowledge 0  引言 国内 1998 年以后出版的三种专利文献 ,即发明专 从知识源的可靠性 、真实性和新颖性等方面 利 、实用新型专利 、外观设计专利 ,其专利申请号 都由 位数字 、 个小圆点和 个

文档评论(0)

zuzenako + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档