基于共词聚类的我国档案信息化研究结构、趋势分析.docVIP

下载本文档

2
0
约4.63千字
约 9页
2017-05-26 发布于福建
举报
版权申诉

基于共词聚类的我国档案信息化研究结构、趋势分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于共词聚类的我国档案信息化研究结构、趋势分析

基于共词聚类的我国档案信息化研究结构、趋势分析　　摘要：档案信息化是传统档案管理向信息化档案管理转型的突破口。对该主题相关研究文献的共词分析、聚类分析及多维尺度分析，有利于把握该研究领域的研究动态，探索新的研究方向。论文研究发现：档案信息化技术、档案管理人员素质、高校档案信息化、医院和健康档案、电子政务档案、企业档案、档案信息安全等方面构成了档案信息化研究主要结构，涵盖计算机科学、档案科学、信息科学、经济管理学等学科领域。通过进一步文献计量分析发现，目前档案信息化研究还面临诸多问题：缺乏国外档案信息化研究状况分析;理论研究偏多、实践应用研究偏少;研究方法偏主观定性;档案信息化评估方面研究太少关键词：档案信息化，BICOMB 2，共词分析，聚类分析信息化背景下，档案利用方式也产生了深刻的变化。从传统档案到信息化档案的转变为满足人们日益增长的档案信息需求提供了新的渠道。从2000年开始，我国对档案信息化的研究逐渐展开，近些年来，档案信息化已然成为档案学科及档案学专业研究的热点问题。本文采用共词分析、聚类分析及多维尺度分析等方法，以CNKI中国学术期刊全文数据库为数据源，对现有以档案信息化为主题的文献进行定量分析，发现该主题研究结构及研究趋势，以求能客观反映我国档案信息化研究的整体状况 1 数据来源与研究方法 1.1 数据来源与预处理。本文的数据来源是中国学术期刊全文数据库，检索策略为“主题=档案AND主题=信息化”，检索过程中设置时间为2005年至2015年，共检索到文献记录3169条。将记录导入查重软件NoteExpress中作预处理，通过剔除重复文献记录，最终得到有效文献2962篇，关键词4281个 1.2 研究方法与工具。本文主要的研究方法是共词分析、聚类分析及多维尺度分析。通过观测一组词同时出现在一篇文献中的次数从而得出这组词之间的关系疏密程度的方法称为共词分析。[1]聚类分析可以得到两个个体间的紧密联系的程度，是描述两个个案间对应程度的有效方法。多维可以直观得到关键词之间的位置，从而反映出文献的研究结构。本文使用的软件工具有NoteExpress、BICOMB2、SPSS19.0以及Excel 2 数据处理 2.1 高频词统计。在BICOMB2中进行词频统计，得到3912个不重复的关键词，并给出每个关键词的词频及所占总频次的百分比，结合文献总数、关键词总数等条件，将阈值定为95得到20个高频关键词及词频。如表1所示： 2.2 共词矩阵。BICOMB2的共现矩阵功能可以直接统计出高频关键词共同出现在同一篇文献中的频次，词频阈值确定10，统计得出30×30矩阵，用Excel宏工具箱结合余弦指数，做相关系数转换，利用余弦指数可以计算出各高频词之间相互的关联度。[2]余弦指数计算公式为 3 数据分析 3.1 聚类分析。聚类分析是一种多元统计方法，主要针对研究样本或指标进行分类。按照变量的不同特征或者是一批数据的个案情况，可以依据关系的疏密程度作出分类。[3]本文聚类方法为Q型聚类，类与类之间距离的计算采用组内平均链锁法（Within-groups linkage）。将高频关键词的相似度矩阵作为数据源输入，运用SPSS 19.0软件进行聚类分析，得到结果如图1所示：聚类图结构分析。首先从宏观上观察聚类树图的结构。聚类树图中的最左边的一列标号（Label）和数字（Number）代表着高频关键词及其编号，本文采用凝聚聚类算法计算每两个关键词之间的相似程度，发现第15、21、48、32、30、31、29、40关键词的相似性在所有主题词词对之间是最小的，因此，它们首先聚集成为一个类。随着后续关键词之间的距离拉大，最终所有词构成一个大类。通过树图的结构可以看出，所有的关键词从整体上可以分为6个部分：由15、21、48、32、30、31、29、40号词组成类别A，由7、12、25、34、6、36、4、28、1、45、8号主题词组成类别B，由5、13、2、3、9、10、16、17、19、22、20、23、39号词组成类别C，由11、14、18、27、35、38、41号词组成类别D，由47、49、33、24、26、37、43号词组成类别E，由44、45、42号词组成类别F 3.2 多维尺度分析。MDS（Multidimensional Scaling）即多维尺度法，是多元统计方法的一种，它通过样本在低维空间中的坐标分布来反映多个研究样本的特性与它们之间的相似程度。[4]每一个样本在空间分布图中都表示成一个点，两个点之间可以通过距离的远近来判断两个点之间的相似程度。以相似度矩阵作为SPSS多维尺度分析的输入，数据结构选择Square symmetric，数据测度水平选择O