论共词分析及相应工具软件的设计与开发.docxVIP

论共词分析及相应工具软件的设计与开发.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
本文为网络收集精选范文、公文、论文、和其他应用文档,如需本文,请下载 本文为网络收集精选范文、公文、论文、和其他应用文档,如需本文,请下载 本文为网络收集精选范文、公文、论文、和其他应用文档,如需本文,请下载 本文为网络收集精选范文、公文、论文、和其他应用文档,如需本文,请下载 论共词分析及相应工具软件的设计与开 发 本文从网络收集而来,上传到平台为了帮到更多的人,如果您需要使用本文档, 请点击下载按钮下载本文档(有偿下载),另外祝您生活愉快,工作顺利,万事 如意! 1概述 共词分析是法国文献计量学家于 20世纪70年代 提出来的一种文献内容分析方法,1986年法国国家科 学研究中心的Gallon M和Law J等人出版了第一部关 于共词分析法的学术专著,经过几十年的发展,已经 被广泛应用到许多领域,产生了大量的研究成果。其 思想来源于文献计量学的引文祸合与共被引概念,当 两篇文献同时被其他文献引用时,表明它们所研究的 主题在理论或方法上是相关的。两篇文献共被引的次 数越多,它们的关系就越密切。同理,当有两个专业 术语在某学科领域的同一篇文献中同时出现,表明这 两个词之间存在一定的关系,同时出现的次数越多, 表明它们的关系越密切。 共词分析法主要是对一组主题词或关键词两两统 计其在每一篇文献中出现的次数,以此为基础构造共 词矩阵,通过对共词矩阵变换为相似矩阵与相异矩阵, 然后进行多元统计分析,把众多分析对象之间错综复 杂的关系以数值、图形直观地表示出来,揭示出这些 词之间的亲疏关系,进而分析它们所代表的学科和主 题的变化与趋势。 2共词分析的过程与步骤 运用共词分析法进行研究大致可分为几个步骤进 行,在具体的操作中可根据实际研究主题选择合适的 分析方法。 确定研究主题与文献选取 利用共词分析法基本原理可以概述研究领域的研 究热点,横向和}纵向分析领域学科的发展过程与趋 势,以及领域学科之间的关系等等。确定好研究主题 之后即可在数据库中检索相应的文献,去除重复文献、 非相关文献后筛选合适的文献作为处理对象。 高频词的选取 在分析文献的相关性时,统计分析的过程中如果 使用两个完全不相关的词汇进行处理,对统计分析的 结果将产生很大干扰,因此,被分析的词汇最好是受 控词、被统一标引的主题词,只有这样,利用文献中 词语对的共现频次来反映研究主题内在联系的方法才 能成立121,因此在研究中通常使用检索的主题词或 文献的关键词作为分析对象。将所有主题词或关键词 按出现频率的高低顺序排列,选取其中出现频率较高 的词汇作为分析对象。确定高频词的方法有两种:一种 是结合研究者的经验在选词个数和词频高度上予以平 衡;另一种是结合齐普夫第二定律关于低频词分布规 律理论来判定高频词的界限。 构造共词矩阵 为反映高频词之间的关系,需要将其两两组对, 统计每对高频词在同一篇文献中出现的次数,如果两 个主题词(关键词)在众多的文献中出现频率高,则说 明它们之间的关系密切。如果选取了 N个高频词,则 它们之间的关系,可以通过构造一个N*N的矩阵计算 共现频次来反应。共词矩阵的计算是共词分析中的重 要一步,由于统计词对出现的频次值是绝对值,难以 反映词与词之间真正的相互关系,因此需要对词频进 行包容化处理以反映出两者间的紧密联系的程度。目 前各种共词分析文献中应用得比较多的一种方法是采 用Chiai系数将相关矩阵转化为相似矩阵和相异矩阵。 采用多元统计方法分析 在计算共词矩阵的基础上,采用不同的统计学分 析方法,揭示共词中的信息,常用的分析方法有:因子 分析、聚类分析法、关联规则分析、多维尺度分析等 方法。目前已有学者将新近出现的突发词监测法引入 共词分析中开展文献学评价研究。 阐述共词分析的结果 共词分析过程是使用统计学以及数据挖掘等方法 反映研究主题间的关系,要深入揭示隐含在文献中的 知识,必须结合相关学科的知识对统计的结果进行科 学分析与合理阐述。 3共词分析工具软件的设计开发 构造共词矩阵并计算共词频次是共词分析的重要 环节,在处理的文献数量很大时,通过手工统计众多 主题词或关键词,计算共词矩阵是不现实的。通常可 以采用软件进行构建作者和关键词矩阵以分析文献数 据,但这些软件比较难以理解和掌握。也有学者通过 Microsoft公司的办公软件Excel来进行共词分析,但 前期的题录导入、关键词切分与统计等工作还需手工 完成,工作量巨大。相比较而 n,自主地设计开发一 款自动完成文献题录导入、关键词切分与统计、构建 共词矩阵、计算共词频次等功能的软件,在实际的科 研工作中,可以起到事半功倍的效果。 系统功能模块 软件的主要功能包括文本的预处理、文献题录导 入、关键词切分与统计、构建共词矩阵、计算共词频 次等,还可以扩展添加数据挖掘的聚类分析等采用多 元统计分

文档评论(0)

139****7971 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档