信息资源管共词分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息资源管共词分析

我国近年来铁路的发展方向 ——基于共词分析 1.实验内容 改革开放以来,中国铁路发展取得了巨大成就。2005年中国内地铁路营业里程已经达到7.5万公里,其中复线里程2.5万公里,电气化线路2万公里。随着青藏铁路于2005年10月全线建成,今年7月通车运营,铁路将覆盖全国所有省市自治区。 2007年4月18日,中国第六次铁路大提速正式展开,CRH1、CRH2、CRH5动车组大规模上线运行,列车运行时速达200 km/h。 选择网络数据总库近一段时间,随着李克强总理出访各国,向各国推荐高铁,中国铁路受到世界瞩目。 本次实验具体内容包括: (1)文献资源检索。 (2)文献处理。 (3)文献挖掘。 (4)分析我国近年来天路发展方向。 (5)总结本实验研究、分析优缺点。 2.文献获取与数据收集 本实验采用中国学术期刊网(CNKI)全文数据库并选择网络数据总库,时间是2008—2015年,指定来源为核心刊物,指定主题为“中国铁路发展”,共搜索到500篇文献信息,搜索过程如图1所示。 图1 将搜索到的文献数据以自定义的方式,选择“来源库”、“关键词”、“年”、“提名”、“摘要”、“作者”、“发表时间”、“单位”ISSN项目输出,并导出Excel,以便后续处理。原始数据如图2所示。 图2 3.数据处理 1)文献数据初步处理 经初步筛选,见关键词缺乏、无作者、摘要内容无关、新闻报告以及其它在《萌芽》等杂志把标的文章全部剔除,并提出摘要,最终剩余359篇主要文献数据,再将数据进行合并汇总,最终汇总如图3所示。 图3 2)关键词处理 (1)关键词结构。 运用Excel的数据分析功能——分列,见关键词进一步处理,处理结果如图4所示。 图4 (2)关键词筛选。 利用Excel的统计功能将所有关键词进行词频统计,获得原始关键词2396个。选择词频不低于7的关键词,筛选出34个关键词作为高频词。其中,关键词“中国铁路发展”词频170次,为最高频次。但鉴于“中国铁路发展”与本研究内容完全重合,在共此分析中难以发挥作用,予以舍弃。关键词太多,工作量太大,因此得到高频关键词19个,如表1所示。 序号 关键词 词频 序号 关键词 词频 1 中国铁路发展 170 11 铁道部部长 13 2 铁路 46 12 高速铁路建设 13 3 铁路运输 33 13 动车组列车 13 4 铁路建设 29 14 营业里程 12 5 运输能力 27 15 高速铁路 12 6 铁路干线 17 16 部长刘志军 11 7 客运专线建设 15 17 中国铁路 10 8 世界铁路 14 18 铁路跨越式发展 10 9 客运专线 14 19 改革 10 10 铁路营业里程 13 表1 (3)关键词共词矩阵 由于表1中的这些关键词是有关中国铁路发展文献中出现频次较高的词,它们从较大程度上能代表中国当前中国铁路发展的研究热点。为了进一步了解这些词之间的联系,在建立的数据库中对表1中的高频关键词进行两两共词检索,统计它们在359篇文章中同时出现的频率,建立一个19*19的关键词矩阵。部分共词矩阵数据如图5所示。 共词矩阵位对称矩阵,主对角线的数据定义为缺失,非主对角线中单元格的数据为两个关键词共同出现的次数。 图5 (4)关键词相似矩阵由于将要运用的多元统计方法对矩阵的数据结构有不同的要求,为了统计分析的方便,也为了消除频次悬殊造成的影响,将相关矩阵转化为相似矩阵。 共词矩阵转化为相似矩阵的具体方法是用Ochiia系数转化成相似矩阵,即将共词矩阵中的每个数字都除以与之相关的量的关键词总频次开房的成绩。 此时对角线上的数据表示该词自身的相似程度,经计算均为1,。利用公式进行计算,得到的部分相似矩阵如图6所示。 图6 相似距震中的数字表明其对应两个关键词之际,数值越大表明关键词之间的距离越近,相似度越好;反之,数值越小表明关键词之间的距离越远,相似度越差。 (5)关键词相异矩阵 由于相思局真的0值过多,统计时容易造成误差过大,为了方便进一步处理,用1与全部相似矩阵中的数据相减,得到表示两词间相依程度的相异矩阵,如图7所示。 相异矩阵中的数据表示不相似数据,数值越大表明关键词之间的距离越远,相似度越差;反之,数值越小表明关键词之间的距离越近,相似度越高。 图7

文档评论(0)

af60068 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档