基于正则表达式的专利信息提取方法研究-中国机械工程.PDFVIP

  • 6
  • 0
  • 约2.29万字
  • 约 4页
  • 2019-08-18 发布于北京
  • 举报

基于正则表达式的专利信息提取方法研究-中国机械工程.PDF

基于正则表达式的专利信息提取方法研究-中国机械工程.PDF

中国机械工程第 卷第 期 年 月上半月 18 19 2007 10 基于正则表达式的专利信息提取方法研究 邱清盈 郑国民 冯培恩 武建伟 暋 暋 暋 , , 浙江大学CADCG国家重点实验室 杭州 310027 : , 摘要 针对图像格式专利文献难以进行全文检索和深入分析利用的问题 根据专利文献的结构特 , , 点 通过集成光学字符识别工具和建立具有容错性的专利信息提取正则表达式 提出了专利文献的数字 。 , , 化和信息提取方法 开发了相应的软件系统 实现了专利信息的批量提取 为后续高效率地对专利文献 进行自动分析和知识挖掘提供了数据基础。 : ; ; ; 关键词 专利分析 信息提取 正则表达式 设计知识 中图分类号: 文章编号: — ( ) — — TP391暋暋暋 1004 132X200719 2326 04 ExtractionA roachofPatentInformationBasedonReularExression pp g p 暞 QiuQin in暋Zhen Guomin暋Fen Peien暋WuJianwei gy g g g , , , StateKe Laborator ofCADCG Zheian Universit Hanzhou 310027 y y j g y g : , , AbstractSincecurrentatentdocumentsaresavedasimae-basedt esuchas.TIF .PDF p g yp , andsoon the aredifficultforfull-textsearchandfurtheranalsis.Thea roachthatadoedthe y y pp p ( ) oticalcharacterreconition OCR toolandthefault-tolerantreularexressionswas roosedfor p g g p p p atentdiitizationandinformationextractionaccordin tothest

文档评论(0)

1亿VIP精品文档

相关文档