- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于德温特数据库的关键共性技术分析
[摘要]文章在界定关键共性技术概念的基础上,以德温特数据库为数据来源,下载了钢铁产业的热处理领域的相关数据。同时,开发了分词系统及数据分类系统,并结合陈超美开发的Citespace软件对相关数据进行了二次螺旋分析。经实验验证,数据分析速度快、结果准确,具有一定的应用及推广价值。
[关键词]关键共性技术;二次螺旋分析;共词分析
[DOI]10.13939/j.cnki.zgsc.2016.31.273
重大关键共性技术在整个技术创新链条中处于基础性地位,是跨产业部门的关键技术,能够为多项其他技术的进步、产业的发展提供支撑,具有广阔的应用前景,为众多用户所使用,规模效用明显。[1]
1关键共性技术辨识系统的构建
由关键共性技术的内在构成要素及其相互关系展开的逻辑顺序,可以把关键共性技术系统过程概括为3个阶段。
1.1数据准备确定数据源
Derwent Innovations Index(DII)是美国科学情报所(ISI)最新推出的基于因特网环境的数据库产品,该数据库将Derwent World Patents Index(DWPI,德温特世界专利索引)与Patents Citation Index(PCI,专利引文索引)加以整合,它收录来自40多个专利机构授权的1000多万基本发明、3000多万个专利,数据每周更新并已回溯至1963年,为研究人员提供了世界范围内的化学、电子与电气以及工程技术领域内综合全面的发明信息,是最为全面的国际专利信息数据库。符合数据源筛选原则,因此确定数据源为德温特世界专利索引数据库。
1.2数据获取
1.2.1特征词的识别
抽取文本特征集的目的是通过将文本特征项(关键词、标引词等)的量化,将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息。通过对文献的回顾可以发现,抽取的文本特征项类型经历了从单纯选用标引词扩展到全文中的自由词汇这样一个发展过程。
选择标引词作为文本特征集时,词汇的使用很规范,也较能反映文献的主题,一直是共现分析操作过程中首选的分析单元。选择自由词作为文本特征集时,需要选择自由词的抽取位置,从标题和摘要中抽取词汇作为文本特征集时能够直接从作者对文章的认识角度理解文本内容,提高对文本内容把握的准确性。从全文中抽词的最大优点是能够保留出现频率不高但非常重要的词汇,同时避免了更新词表、标引文献等不小的工作量。但由于涉及文本切分词等处理,实现的复杂度较高。
总结起来,抽取文本特征集时必须做出两重选择,从何处抽取(可以选择标题、关键词、摘要、全文)和抽取哪种类型的词。本研究对特征词的识别包括标引词汇和自由词汇。
1.2.2特征词的抽取
从关键词、标题、摘要、全文中抽取,抽取词汇的质量依次增高,操作的复杂程度也逐个增强。抽取标引词时,用词规范、词汇间概念关系清晰,但存在可能出现标引偏差和丢失新兴词汇的缺陷。抽取自由词汇时则与上述情况正好相反,该抽取方法能够科学地反映文本内容、跟踪新兴词汇的出现,但词汇的“一词多义”和“一义多词”现象导致数据预处理困难,自由词汇间复杂的语义关系影响分析结果的可解释性。所以应该根据分析目标的不同做出合理选择。可见,词汇抽取结果的有效性和实现的便捷性始终是相互矛盾的,它们互相制约,实际操作中必须找到两者的平衡点,以便利用最简便的方法取得最科学的结果。
综上分析,本文特征词的识别是根据具体的科技跟踪需要,从下载的文本集合中利用我们开发的分词软件自动抽取“标引词”和“自由词”作为反映文献内容的特征值,具体包括“标题”“关键词”“标引词”“作者信息”“引文”等。
1.2.3特征词的选择
词是文献中承载学术概念的最小单位。词频的波动与社会现象、情报现象之间具有内在的关系,一定的社会现象和情报现象必然引起相应的词频波动现象。[2]因此,通过统计关键词、主题词、篇名词等核心词汇在某一类学术文献中所出现的频次,可以判别该学术领域的研究热点、知识结构和发展趋势。
本研究特征词的选择,就是对数据库中的文件进行词频统计分析,形成词频统计文件。借助分词软件将论文标题中使用的单词按照出现的频次由高到低进行降序排列,然后将一些不完整的单词及没有特殊意义的单词从词频列表中删除,同时删除掉那些在科学研究中被普遍应用的、没有代表性的单词,如研究(study)、分析(analysis)等。[3]
当选择确定的特征词后,利用我们开发的数据分类软件,根据特征词将下载数据中包含特征词的数据段落归类,归类后的数据段落作为一个完整的数据集合,可供Citespace软件进行共词聚类分析。
2共词分析
从“技术方法”上看,国内外本阶段共词分
文档评论(0)