- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于多特征多分类器集成的专利自动分类研究-北京玛格泰克科技发展
会议专辑
基于多特征多分类器集成的专利自动分类
研究*
贾杉杉 1 刘 畅 2 孙连英 3 刘小安 1 彭 涛 2
1(北京联合大学智慧城市学院 北京 100101)
2(北京联合大学机器人学院 北京 100101)
3(北京联合大学城市轨道交通与物流学院 北京 100101)
摘要: 【目的 】为了准确地给专利申请书分配IPC 分类号, 本文提出一种基于多特征多分类器集成的专利自动分
类方法。【方法】使用从专利申请书中提取的全词典TFIDF 特征、信息增益词典TFIDF 特征、段落向量特征、
主题模型向量特征, 分别训练朴素贝叶斯、支持向量机、AdaBoost 分类器, 以此构建特征–类别矩阵, 并结合F1
权重矩阵集成, 获得最终IPC 预测分类号。【结果】对2014 年–2016 年“发动机或泵”领域的 10 个小类进行分
类, 使用Top Prediction 、All Categories 和Two Guesses 三种评估方法得到准确率分别为: 78.9%、80.1%、91.2%。
【局限 】训练仅仅使用了2014 年–2016 年共三年的专利数据, 数据规模有限。【结论】在“发动机或泵”领域, 本文
方法能够有效地提高专利文本分类的准确率。
关键词: 专利分类 段落向量 主题向量 分类器集成
分类号: G250
(2) 一件专利可被赋予不止一个分类号;
1 引 言
(3) 为了扩大专利受保护范围, 专利申请人对于
[1]
中国知识产权局研究发现 , 知识资源和信息资 专利申请的用词过于夸大;
源是最主要的智力资源, 尤其是专利信息这样基于创 (4) 类别之间相似度高, 对特征的表达能力要求高;
新、体现技术的资源。为了尽快找到和利用相关的专 (5) 各个类别的专利数量严重不均衡, 给分类带
利信息, 需要对每一件专利按照其技术内容分配相应 来巨大压力。
的专利分类号[2] 。专利分类方法有很多, 其中使用最广 目前, 专利审查员主要使用手工分类, 少量借助
泛的是国际专利分类(International Patent Classification, 机器对专利进行分类。对于手工分类, 专利审查员需
IPC)体系[3], 其几乎包括了与发明创造有关的全部知 要逐篇阅读专利文献以确定分类号, 这样做效率低、
识领域, 中国、美国以及其他50 多个国家和地区都在 费用高, 另外不同的人主观判断存在差别, 导致分类
使用。 效果一致性较差[2] 。近年来, 已有许多学者采用基于机
使用 IPC 分类体系进行专利分类难点众多, 主 器学习的方法对专利文本进行分类研究, 主要采用基
要有: 于词的特征和单一分类器进行分类。然而这种方法并
(1) 类别众多, 层次复杂, 最新的IPC 分类体系有 没有很好地解决专利文本分类这样复杂的文本分类任
7 万多个类别, 5 个层级; 务。因此, 机器分类的准确率需要进一步提升, 以辅助
通讯作者: 彭涛, ORCID: 0000-0003-3533-9736, E-mail: pengtao@ 。
*本文系国家重点研发计划项目“公共安全风险防控与应急技术装备”(项目编号: 2016YFC0802107)和北京市教育委员会科技计划
面上项目(项目编号: SQKM201411417013)的研究成果之一。
76 数据分析与知识发现
总第8 期 2017 年 第8 期
专利审查员的分类工作。 例如: 刘桂锋等[3]提出基于概率超图的半监督的方法,
本文
文档评论(0)