基于多特征多分类器集成的专利自动分类研究-北京玛格泰克科技发展.PDFVIP

基于多特征多分类器集成的专利自动分类研究-北京玛格泰克科技发展.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于多特征多分类器集成的专利自动分类研究-北京玛格泰克科技发展

会议专辑 基于多特征多分类器集成的专利自动分类 研究* 贾杉杉 1 刘 畅 2 孙连英 3 刘小安 1 彭 涛 2 1(北京联合大学智慧城市学院 北京 100101) 2(北京联合大学机器人学院 北京 100101) 3(北京联合大学城市轨道交通与物流学院 北京 100101) 摘要: 【目的 】为了准确地给专利申请书分配IPC 分类号, 本文提出一种基于多特征多分类器集成的专利自动分 类方法。【方法】使用从专利申请书中提取的全词典TFIDF 特征、信息增益词典TFIDF 特征、段落向量特征、 主题模型向量特征, 分别训练朴素贝叶斯、支持向量机、AdaBoost 分类器, 以此构建特征–类别矩阵, 并结合F1 权重矩阵集成, 获得最终IPC 预测分类号。【结果】对2014 年–2016 年“发动机或泵”领域的 10 个小类进行分 类, 使用Top Prediction 、All Categories 和Two Guesses 三种评估方法得到准确率分别为: 78.9%、80.1%、91.2%。 【局限 】训练仅仅使用了2014 年–2016 年共三年的专利数据, 数据规模有限。【结论】在“发动机或泵”领域, 本文 方法能够有效地提高专利文本分类的准确率。 关键词: 专利分类 段落向量 主题向量 分类器集成 分类号: G250 (2) 一件专利可被赋予不止一个分类号; 1 引 言 (3) 为了扩大专利受保护范围, 专利申请人对于 [1] 中国知识产权局研究发现 , 知识资源和信息资 专利申请的用词过于夸大; 源是最主要的智力资源, 尤其是专利信息这样基于创 (4) 类别之间相似度高, 对特征的表达能力要求高; 新、体现技术的资源。为了尽快找到和利用相关的专 (5) 各个类别的专利数量严重不均衡, 给分类带 利信息, 需要对每一件专利按照其技术内容分配相应 来巨大压力。 的专利分类号[2] 。专利分类方法有很多, 其中使用最广 目前, 专利审查员主要使用手工分类, 少量借助 泛的是国际专利分类(International Patent Classification, 机器对专利进行分类。对于手工分类, 专利审查员需 IPC)体系[3], 其几乎包括了与发明创造有关的全部知 要逐篇阅读专利文献以确定分类号, 这样做效率低、 识领域, 中国、美国以及其他50 多个国家和地区都在 费用高, 另外不同的人主观判断存在差别, 导致分类 使用。 效果一致性较差[2] 。近年来, 已有许多学者采用基于机 使用 IPC 分类体系进行专利分类难点众多, 主 器学习的方法对专利文本进行分类研究, 主要采用基 要有: 于词的特征和单一分类器进行分类。然而这种方法并 (1) 类别众多, 层次复杂, 最新的IPC 分类体系有 没有很好地解决专利文本分类这样复杂的文本分类任 7 万多个类别, 5 个层级; 务。因此, 机器分类的准确率需要进一步提升, 以辅助 通讯作者: 彭涛, ORCID: 0000-0003-3533-9736, E-mail: pengtao@ 。 *本文系国家重点研发计划项目“公共安全风险防控与应急技术装备”(项目编号: 2016YFC0802107)和北京市教育委员会科技计划 面上项目(项目编号: SQKM201411417013)的研究成果之一。 76 数据分析与知识发现 总第8 期 2017 年 第8 期 专利审查员的分类工作。 例如: 刘桂锋等[3]提出基于概率超图的半监督的方法, 本文

文档评论(0)

laolao123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档