- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基于专利文献的技术演化分析方法研究以石墨烯传感器技术为例
1知识产权语义溯源研究
技术进化分析是一种基于技术历史发展的参考,描述其发展过程,并从未来影响到重要技术的新方法。
专利文献是世界上最大的信息源之一,各国每年出版的专利文献占科技出版物的1/4,内容包含了世界科技信息的90%-95%。相比其他信息资源,专利文献具有内容新颖、系统详尽、格式规范、分类科学等特点,是一种理想的技术演化分析对象。
在利用专利语义信息,绘制技术关联图,分析技术演化趋势,进而预测新兴技术方面,中外学者进行了较广泛深入的研究。在专利语义分析方面,Nizar等通过对专利文献进行基于本体的语义标注来支持技术挖掘;姜彩红等对中文专利摘要进行了语义抽取实验,为构建专利知识库提供语料基础。欧盟支持的PATE-xpert项目是一个对专利文献的语义处理的实验型系统;Aureka通过Themescape可对专利按主题聚类,并以地形图直观进行显示。
在技术关联图方面,Yoon和Park提出一种以关键词向量为基础,绘制专利网络关联图的分析方法;Christian等提出通过社会关系网络分析工具来对专利进行可视化分析。此外,通过文献引证关系来揭示技术之间的关联,也是一种常见的分析方法。
2技术发展分析
2.1专利文书聚类分析算法及注意事项
韩国学者Young等提出一种基于语义专利分析可视化的方法,用于新兴技术预测。方法流程为:关键词抽取、专利文档聚类、利用关键词在专利文档聚类中的层次分布关系分析技术演化,进而预测新兴技术。该方法具有操作简单、解读清晰、主题凝练充分等优点。
然而通过实践,发现这一方法存在以下不足:(1)文中通过计算关键词在专利文档聚类分组中的分布及其关系,来分析技术演化,但却采用关键词-专利文档存在矩阵作为聚类基础,有循环论证之嫌。此外,选定的关键词数量有限,难以作为聚类依据。(2)文中关键词-专利文档存在矩阵,通过计算关键词是否在专利文档中出现来进行赋值,如果出现,则为1,否则为0。这种赋值方式过于简单化,既没有考虑到关键词在专利文档中的分布特征,也没有考虑到关键词之间的语义特征,用来对专利文档聚类,效果较差。(3)文中采用k-Means算法聚类。k-Means作为经典聚类算法,要事先确定聚类的数目,进行分析次数较多。当观察值的个数较多时,采用“k-Means聚类分析法”较合适。而该方法分析专利数量一般较小,选择一些更直观的聚类算法,如“系统聚类分析法”将更方便准确。
2.2年轻等分析的改进
针对以上不足,本文进行相应的改进,提出基于专利文献的技术演化分析方法,如图1所示:
2.2.1确定与专家讨论的知识产权文件集,确定知识产权搜索策略,开展知识产权搜索,并接收相关的专利文件集
2.2.2提取技术点
从专利文档集中抽取技术点。请领域专家对自动抽取的技术点再进行人工筛选,最终确定专利文献涵盖的重要技术点,作为技术演化分析的基础。
2.2.3领域本体相似矩阵算法
按技术相关性,对专利文档进行聚类。考虑到专利文献的特殊性,利用分类号对专利文档进行语义聚类。相对于关键词,分类号数量较多,特别是德温特专利数据库,其手工分类号(MC)由专家人工标引,较好反映专利技术属性,聚类效果更好,且作为关键词层次分析的基础,更具独立性。分类号与专利文档相似矩阵是聚类的基础,其计算不采用简单的存在与否进行判别,而是综合考虑分类号在专利文档中的分布特征及分类号之间的语义特征。相似矩阵算法参照时念云等提出的计算文档与领域本体概念间关系算法,具体如下:
首先,考虑分类号在专利文档中的分布特征:采用空间向量模型(VSM)描述专利文档与特征项之间的关系,将分类号作为一个特征项来计算。文档中特征项权重计算,通常考虑特征项在文档中出现频率、集合中文档总数、包含特征项的文档数等因素。特征项在文档集中出现的次数越高,包含该特征项的文档数目越少,那么该特征项对于该文档来说,其独特性就越强,其权重也就越高。公式如下:
其中,fij:特征项i在文档j中出现的频率;N:集合中所有文档数;ni:包含特征项i的文档数。
然后,考虑分类号之间的语义特征:分类号之间有明确的上下位关系,可认为是一个领域本体。通过计算本体中词汇之间的相关性,可更准确描述特征项与专利文档之间的关系。对公式(1)进行修正,具体如下:
其中,L:文档j中特征项总数;θim:特征项i与特征项m之间的语义相似度。对领域本体中概念间的语义相似度计算方法,黄果等进行了详细归纳,考虑到分类号特点,可采用基于距离的语义相似度计算模型,具体不作详述。
将式(2)得到的NWeight[i,j]作为分类号与专利文档之间的相似矩阵,以此为基础得到专利文档之间相似性矩阵。在专利文档相似矩阵的基础上,使用系统聚类法对文档进行聚类。
2.2.4多个
原创力文档


文档评论(0)