- 1、本文档共19页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
专利文献及产业类目映射探究
专利文献及产业类目映射探究 摘要:[目的/意义]提出一种基于余弦相似度的专利文献与产业类目映射模型,模型拥有准确、高效和易拓展的优点,可为后续研究提供借鉴和参考。[方法/过程]整理现有专利与产业类目映射方法,以2015年度中国科学院院所发明专利与《战略性新兴产业分类》为例,设计专利文献与产业类目映射模型并做映射实验,并根据映射成果评价模型。[结果/结论]专利文献与产业类目映射模型通过自然语言处理技术自动化得到专利文献与产业类目的映射组合,可实现专利到产业及产业到专利的映射,且可节省大量人力成本并方便地进行映射类目细粒度的调整,适用于大部分专利与产业类目的映射。最后,指出该模型有待完善之处,并对下一步可拓展的应用领域进行探讨
关键词:专利文献 产业分类 类目映射 映射方法
分类号:G254.11
引用格式:田创, 赵亚娟. 专利文献与产业类目的映射研究――以2015年度中科院专利与《战略性新兴产业分类》为例[J/OL]. 知识管理论坛, 2017, 2(1): 22-31[引用日期]. http:///p/1/62/.
专利作为技术创新的成果,与产业创新水平息息相关,同时,作为参与市场竞争的重要工具,也与产业经济活动紧密联系。将专利与产业分类体系进行有效映射是技术转移和专利情报研究工作中不可或缺的步骤
笔者在整理介绍现有专利与产业类目映射方法的基础上,制定准确、高效和易拓展的模型指导原则,以2015年度中国科学院(以下简称“中科院”)院所发明专利与《战略性新兴产业分类》为例,提出了一种基于余弦相似度计算的专利文献与产业类目映射模型并进行了映射实验,并根据映射成果综合评价本模型。模型通过自然语言处理技术自动化得到专利文献与产业类目的映射组合,实现专利到产业及产业到专利的映射,模型可节省大量人力成本并方便地进行映射类目细粒度的调整,适用于大部分专利与产业类目的映射。最后,指出本模型有待完善之处以及完善后可拓展的应用领域,为后续研究提供借鉴和参考
1 现有专利与产业类目映射方法
目前,专利与产业的映射方法主要有3种:基于专家判定的映射方法、基于交叉检索的方法和基于概率计算的方法[1]
基于专家判定的映射方法主要根据专家的主观判断来确立类目间的对应关系,虽然准确率较高,但费时费力,过多依赖于人工判定,不适用于大规模数据
基于交叉检索的方法主要是用一种分类法在使用另一种分类法进行知识组织的语料库中检索,通过对检索结果所标识的类目进行分析和统计,建立两种分类法之间的映射[2-3]。该方法的局限性在于:一方面对数据量有一定的要求,如果数据量太小会造成覆盖率过低的现象;另一方面通过交叉检索得到的是一对多的映射,需要依赖统计或人工的方法进一步确定映射关系
基于概率计算的方法将分类法类目的整体概念分解成若干足够小的单位概念,整体概念的相似度可以建立在各单位概念相似度的基础上,通过计算各小类之间的相似度从而得到整体类目之间的概率,其中小?概率之和应等于整体概率。单位概念通常由关键词表示,这样类目整体概念的相似度就转化为能够表达单位概念词的相似度之和[4-5]。该方法依据一定的规则用计算机代替人工进行语义匹配,省时省力,但映射结果还需进行一定的人工调整
2 映射模型的指导原则
国内已有专利与产业的映射过多地依赖人工判定[6-7],不具有普适性,且映射方法与结果均有待完善。理想的映射方法应当既满足映射的准确性,又能保证效率和可拓展性。基于此方向,设定以下指导原则:
2.1 准确性
使用专利文献中的标题与摘要信息作为专利文献的特征,使用产业类目的官方注释作为产业类目的特征,在初步分词后,提取更能精准体现专利与产业特征的动词与名词,去除不具有明显特征的停用词,以保证映射的准确性
2.2 高效率
2012版《战略性新兴产业分类》第三层级共有100个类目[8],人工逐一对专利文献进行产业类目的映射需要大量时间,应尽可能地依托计算机技术自动化实现映射过程,减少人工的参与。本模型通过计算机编程实现快速从专利文献及产业类目中提取特征,并计算两者之间的相似度,可随着新专利、新产业分类的出现持续更新,并可以根据映射结果,高效灵活调整抽取的类目特征词词性及数量,依赖于客观的算法而不是人为的主观判断
2.3 易拓展
本映射模型除了探讨专利文献与产业类目的映射,还将侧重于构建完善缜密的映射流程,便于下一步将映射方法拓展至其他产业分类体系及类目细粒度的调整
2.3.1 扩展至其他产业分类
国内正在使用的产业分类除了《战略性新兴产业分类》外,还有《国民经济行业分类》《高技术产业分类》《十大重点产业分类》《统计用产品分类目录》和《产业结构调整目录》等,而现有的映射成果均基于专家判定
您可能关注的文档
- 上海市中小学生洗手意识及相关行为探析.doc
- 上海市大学生旅游行为特征探究花.doc
- 上海市安亭镇居民抑郁状况及关联因素探析.doc
- 上海地铁对沿线区域经济发展影响实证探究.doc
- 上海市宝山区小学生流感防治知信行现况调查.doc
- 上海市新场社区居家养老者老年综合征罹患情况.doc
- 上海市杨浦区二次供水设施卫生状况问卷调查.doc
- 上海市某区孕产妇乙肝表面抗原携带率及新生儿免疫接种情况探析.doc
- 上海市电子废弃物处理处置现状探究.doc
- 上海城市管理行政执法服务外包问题及对策.doc
- 新高考生物二轮复习讲练测第6讲 遗传的分子基础(检测) (原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第3讲 酶和ATP(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第9讲 神经调节与体液调节(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第8讲 生物的变异、育种与进化(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(检测)(原卷版).docx
文档评论(0)