- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
共现聚类分析结果的判读
概念与关系的逻辑思维
供中国医科大学2009 级研究生《文本挖掘在科研选
题中的应用》课程使用
崔雷
2009-10-14
表现文献内容的标识(如关键词、分类号)可以用根据它们共现的情况进行
聚类分析,一些表现文献外部特征的标识,如作者、引文等等,也可以进行共现
分析,如作者的合著分析、引文的同被引分析、作者的同被引分析,这些都可以
为展示某一学科领域里科学研究获得的结构和特点提供手段。这些分析的方法原
理都是大同小异的,都属于基于共现的聚类分析。比较常用的方法是通过对特定
领域或者学科的高频主题词以及高被引论文进行共现聚类分析,通过这些分析,
可以把主题词和论文分类为不同的群组,客观地反映出这些概念 (主题词)或者
概念群 (论文)之间的亲疏关系。但是,如何解读这些聚类结果,由此反映出当
前该领域研究的结构和热点,成为共现聚类分析的一大难点。本文就是针对这个
问题,总结多年来共现聚类分析实践所积累的经验,提出一些判读聚类分析结果
的基本原则和体会,共同道在使用中参考。
一.词共现聚类分析的结果判读
以使用SPSS进行聚类分析为例,可以选择Analysis-Classify-Hierarchical
过程,经过设置相应的参数后,对胃癌治疗的高频主题词共现矩阵进行分析,最
后获得该研究领域高频主题词的共现聚类分析树图(如图1)。
1.聚类树图的结构分析
首先从宏观上观察聚类树图的结构。聚类树图中的最左边的一列标号(Label)
和数字(Num)代表着高频主题词,由于采用的是系统聚类法的凝聚聚类算法,
因此,最初每一个主题词都是单独的一个类,通过计算每一对主题词之间的相似
性,发现2号和3号主题词的相似性在所有主题词词对之间是最小的,因此,它们
首先聚集成为一个类,然后它们又和7号主题词合成为一个类。图中最上方的带
有数字的标尺表示分类对象之间的距离 (在SPSS中是重新量化计算的)。随着被
分类的对象(主题词)之间的距离越来越大,最终所有的主题词都成为一个类,
我们可以根据需要在不同的距离水平上分割整个聚类树图。
通过树图的结构我们可以看到,所有的主题词从整体上可以分为三个部分:
由2、3、7号词组成的一个类别(A),由1、4、8、5、9号主题词组成的一个类
别(B),和由6号词单独组成的一个类别(C)。
2.各类的内容分析
主要是通过各个类别主题词之间语义关系的分析。基于凝聚聚类算法的原理,
对聚类分析结果的语义分析也采用了“自下而上”的步骤。即首先获取各个小类
的含义,然后将各个小类的含义在语义上叠加而组合成为大类的含义。具体而言,
就是首先从每个小类中关系最近的两个主题词着手,分析二者之间的语义关系,
获得该类的“种子”概念,在“种子”概念的基础上,根据同类别中其他主题词
与该“种子”的距离,逐次加入主题词,丰富该类别的内容,一般而言,距离比
较远的主题词往往是该核心的相关因素,如核心概念的具体的应用或者影响因素。
本例中,对于3个高频主题词的类别中的主题词进行具体的语义分析,可以
发现:
在A类中,“Stomach Neoplasms/drug therapy,胃肿瘤/药物治疗”(2)
与 “Antineoplastic Combined Chemotherapy Protocols/therapeutic use,
抗肿瘤联合化疗方案/治疗应用”(3)组合在一起表明的是对胃肿瘤采用联合化
疗,加上“Adenocarcinoma/drug therapy,腺癌/药物治疗”(7)表明这一类
主要是关于胃腺癌的联合化疗的主题。
2
图1 胃癌治疗高频主题词聚类分析结果(部分)
在B类中,“Stomach Neoplasms/surgery,胃肿瘤/手术”(1)与“Gastrectomy
/ methods,胃切除/方法”(4)表明是关于胃肿瘤外科手术切除治疗的主题,
同样,“Adenocarcinoma/surgery,腺癌/手术”(8)也是说明主要是针对胃腺
癌的手术切除治疗,“Stomach Neoplasms/pathology,胃肿瘤/病理”则是说明
这种疗法会受到不同的病理类型的影响。这一类别最边缘的主题词“Gastrectomy,
胃切除”(9)没有副主题词,则是表示对胃切除的概述,是对上述主题的强化,
由于与其他主题词距离比较大,也可以忽略不计。
C类则是单独一个单词,“Stomach Neoplasms/therapy,胃肿
文档评论(0)