- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息资源开发与管理
———基于共词分析的 班级: 管经1402班
学号: 座机电话号码
姓名: 郭振亚
1.实验内容 本实验是对办公自动化的文献研究实验。主要基于对文献资源进行检索,寻找相关的文献资源,并对文献资源进行一系列的挖掘,从而能够对“办公自动化”这个研究题目进行初步的了解。
实验步骤:
(1)收集文献并整理文献;
(2)利用相关软件对文献进行一系列分析;
(3)得出对文献分析的结论(即对办公自动化的研究热点有初步了解)。
2.文献获取
为了对办公自动化领域的研究和特点等一些情况的了解,本实验选择了本校(即大连理工大学)图书馆的“中国优秀博士硕士生论文”库进行检索。通过下载文献,并对文献进行收集。主要收集过程为:
①为了保证是文献,首先将没有作者且没有刊名的筛选掉;
②设定的文献刊登时间在2008年—2012年之间;
③除了以上行为,还初步对收集的文献进行分析,若与办公自动化无关便将其删除。
最后,得到1100篇文献,准备对其进行处理。 将文献的主要信息制成文献数据结构表,如下:
表1 文献数据结构表
题名 作者 关键词 单位 摘要 刊名 出版日期 以下为部分文件数据结构图:
图1 文献数据结构图
3.关键词确定
使用Excel,通过其的统计功能,对词频进行统计。原始关键词有1093个,从中选择词频为12个以上的,共有27个。之后并对以下关键词进行删除:
(1)出现频率过高(即比其它关键词高过多),有:办公自动化;
(2)与某个关键词相关性太强,有:自动化。
筛选后,得到比较高频的关键词25个。
表2 办公自动化研究领域关键词词频表
序号 关键词 词频 序号 关键词 词频 序号 关键词 词频 序号 关键词 词频 1 办公自动化系统 78 8 应用 27 15 计算机 20 22 医院 14 2 工作流 64 9 网络安全 26 16 数据库 19 23 自动化 14 3 高校 49 10 设计 24 17 Lotus 17 24 Web 13 4 OA 37 11 ASP.NET 23 18 ASP 16 25 高职院校 13 5 网络 33 12 管理 23 19 J2EE 16 26 中小企业 12 6 电子政务 28 13 B/S 22 20 安全 16 7 OA系统 27 14 信息化 22 21 教学改革 15 4.建立供词相关矩阵、相似矩阵、相异矩阵
(1)共词矩阵
关键词词频表,表示其中的关键词是有关办公自动化文献中出现频率最高的词,它们从一定程度上说明了这些词与办公自动化的研究有着很密切的关系。为了进一步对这些词与办公自动化的关系有一定的了解,了解其中的联系,利用Excel对这些关键词进行两两共词检索,统计它们两两在文献中出现的频率,从而建立一个25*25的关键词共词矩阵。
完全共词矩阵如下:
共词矩阵为对称矩阵, 主对角线的数据定义为缺失, 非主对角中单元格的数据为两个关键词共同出现的次数。如关键词“信息化建设”与“ 对策” 的共词频次为8, 即表示有8篇论文同时使用了这两个关键词。
由于下面运用的多元统计方法对矩阵的数据结构有不同的要求, 为了统计分析的方便, 因此用系数将共词矩阵转换成相关矩阵, 具体方法是将共词矩阵中的每个数字都除以与之相关的两个词的总出现频次的开方的积。在相关矩阵中由于值过多, 统计时误差过大, 有可能影响分析结果。为了方便进一步处理, 用与全部相关矩阵上的数据相减, 得到表示两词间相异程度的相异矩阵。
(2)相似矩阵
由于将要运用的多元统计方法对矩阵的数据结构有不同的要求,为了统计分析的方便,本文将相关矩阵转化为相似矩阵和相异矩阵。具体方法是,用Ochiia系数将共词矩阵转换成相似矩阵,即:Ochiia a, b , 其中, Ochiia a, b 表示a、b两词的Ochiia系数; 表示a、b两词共同出现的次数; 表示关键词a出现的频次; 表示关键词b出现的频次。利用该公式进行计算,得到相似矩阵。
完全相似矩阵如下:
相似矩阵中的数字表明其对应两个关键词之间的亲疏关系,数值越大则表明关键词之间的距离越近,相似度越好;反之,数值越小则表明关键词之间的距离越远,相似度越差。
(3)相异矩阵
由于相似矩阵中的0值过多,统计时容易造成误差过大,为了方便进一步处理,用1与全部相似矩阵中的数据相减,得到表示两词间相异程度的相异矩阵。
完全相异矩阵如下:
相异矩阵中的数据表示不相似数据,数值越大则表明关键词之间的距离越远,相似度越差;反之,数值越小则表明关键词之间的距离越近,相似度越高。
5.聚类分析
本实验采用层次聚类 Hierarchical Cluster ,选择离差平方和法 Wards Method 与离散数据类型 Count 中的斐
您可能关注的文档
- 左信:安全保护自动控制系统课稿.ppt
- 中考数学真题演练---因动点引起的点或图形的存在课稿.doc
- 振动和波全课稿.doc
- 阻尼振动共振课稿.ppt
- 重庆市汽车制造挥发性有机物排放标准地方标准课稿.doc
- 镇江市2015年高考模拟拟课稿.doc
- 自动回转刀架课稿.doc
- 长使英雄泪满襟—漫话润湿现象及其应用课稿.doc
- 一年级数学下册课稿.doc
- 硝仿肼热安全性及热动力学课稿.doc
- 多点监督与特征融合校准:目标检测算法的创新与突破.docx
- 南宁市门诊HIV_AIDS患者抑郁状况剖析与影响因素探究.docx
- 医疗过失犯罪中客观归责理论的精准适用与深度解析.docx
- 南宁市低碳经济发展研究.docx
- 清解瘀毒胶囊对脑出血大鼠血红蛋白毒性作用及机制探究.docx
- 内蒙古赤峰市元宝山区农村小学教师培训:现状、问题与突破路径.docx
- 泉州开发区国有资产投资经营有限公司发展战略研究:基于区域经济与市场环境的分析.docx
- 能源利用效率与经济增长方式的深度耦合及中国战略抉择.docx
- 分布式信号波达方向 - 时延联合估计算法的深度剖析与创新探索.docx
- 新媒体环境下大学校园精神传播的创新变革.docx
文档评论(0)