IPC自动分类技术研究与应用.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
IPC自动分类技术研究与应用

IPC自动分类技术研究与应用   摘要:一种无需语料库和复杂数学模型支持的IPC分类简单方法。该方法借助IPC分类表、同义词库、人工辅助植入同义词或上位词增加权重等手段,调整分类倾向,来捕捉文献相应的主分类和相关分类。该方法可作为信息加工专利文献分类的辅助工具。   关键词:IPC分类;分类表;同义词库;上位词;相似度算法   中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2015)33-0116-04   Research and Application of IPC Automatic Classification Technology―the Auxiliary Automatic Classification of the Realization of the Algorithm   WU Hong-zhou   (The China patent information center, Beijing 100088, China)   Abstract:A method of the IPC classification is simple without the help of a complex mathematical model and corpus. The method using the IPC classification comparison table, a synonym sets, artificial auxiliary implanted synonyms or hypernym , to increase the weight, to adjustment of classification, to capture the corresponding main classification and related classifications. This method can be used as auxiliary tool for the classification of information processing of patent literature.   Key words:the IPC classification; Classification entry table;A synonym base; Hypernym; Similarity algorithm   在专利信息技术领域中,自动分类技术的研究自2010年变为实用,成为标志性里程碑。多年来基于历史信息的海量计算占主导。笔者致力于简单实效的轻量级软件研究,提出一种基于分类表的简约方法。通过实验来验证其可行性。   1 实验背景   早期手工分类,从粗到细,完全由分类员完成。主要工具是查阅专利分类表。随着计算机应用的发展,分类表由书籍变成电子版,又经历了网络版、网页版变迁。2010年以后才真正标志性地实现了自动分类技术的应用,将研究变为实用。一种基于历史文献的分类方法至今占据着主导位置。   1.1 基于历史文献的分类方法   以历史文献作训练空间,构建语料库,通过数学模型运算获得相似度评分,提供备选方案。其中数学模型可以多种。如SVM、KNN、Naive Bayes等等[1]。其优点是对已分类文献分类效果良好。其缺点是需配备海量装备,代价大。   这种方法后来也受到两点质疑。   1)发明专利的创新性   由于专利文献由两类构成:一类是开创性发明,另一类是改进性发明。对于开创性发明,其新技术方案所依据的基本原理与已有技术有质的不同。这类专利之间相似度很低。因此基于历史的方法,问题会出在参照物信息不充分上。   2)IPC分类的渐变性   在专利审查流程中有一种预警机制。当某个时期某个领域专利案件量增长超出预期就会报警。同时引起两个部门的注意。A)宏观战略研究部门,主要观测是否将有引领潮流的革命性技术到来,例如:纳米。预测5到10年将进入市场,对宏观经济产生影响。B)审查业务管理部门,检测到案件量当超过某个数量级的阀值时,就要考虑审查增员问题,或者考虑该分类是否需要再细分。一种变化是增加小组细目,另一种变化停止原小组细目,重新分配一个新的大组,然后再分到各个小组细目。因此,专利分类表会根据需要随时调整。因此基于历史的方法问题会出在参照物信息不确定上。   1.2 基于分类表的分类方法   分类表作为指导性工具,曾经是手工时代的产物,早已被自动化工具所取代,目前只剩备忘录作用。笔者以为分类表不仅有良好层级结构,还有规则指向,交叉参考等。如能充分利用,可以开发出分类导航(XML- Xslt版已初具导航作用)产品;将括弧中规则指向和交叉参考与人工智

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档