- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Cluster Analysis(丛聚分析)
Cluster Analysis(叢聚分析)
假設現有n個個體,每個個體取p種測量值。
˙將p種測量值影響其變化的因子找出並按照共同因子分類(因子分析)
˙若n個個體有明顯確定的生物分類(判別分析或分類分析)
˙依照p個測量值訂定n個個體之”距離”(或相似矩陣),或依照某種方法(如DNA差異百分比)決定個體”距離”而自行將n個個體分類(叢聚分析)
叢聚分析有兩種類型:
相斥(disjoint) cluster
在不同叢聚中之個體彼此互斥
層疊(hierarchical) cluster
1 2 3 4 5
應用
˙心理學上,將個體分成不同人格的類別
˙生物演化的樹型(族譜)
˙商業調查中,將顧客分類
˙將城市依其城市各項指標分類
共有多少組合?
叢聚分析組合數看叢聚個數而定,並視是否允許叢聚中個體數為0而不同,(看成不同,即均可分辨)
叢聚:看成機率理論中的盒子數(可分辨或不可分辨)
組合情形如下:
球數n
所有情形 不允許空盒
m盒子可分辨
m盒子不可分辨
:Stirling number of the second kind
例: (12,3),(13,2),(23,1)
(1,234),(2,134),(3,124),(4,123),(12,34),(13,24),(14,23)
(1,2,34),(1,3,24),(1,4,23),(2,3,14),(3,4,12),(2,4,13)
,,,
,,,
不同人種遺傳距離:
Hartman et.al. (1994,Am. J. Hum. Genet.) examined the diversity of races in US based on VNTR RFLP at 4 loci. Nei’s genetic distances were computed in the following table. Use UPGMA to cluster the past evolution tree of the 6 races. (Note this data is based on 4 loci only. It is subject to some bias. )
/ Chinese Japanese Korean Vietnamese Black White Hispanic C ___ 0.024 0.004 0.021 0.040 0.047 0.032 J *** _____ 0.012 0.024 0.020 0.037 0.019 K *** *** _____ 0.015 0.026 0.027 0.023 V *** *** *** _____ 0.034 0.043 0.018 B *** *** *** *** _____ 0.023 0.021 W *** *** *** *** *** _____ 0.010 H *** *** *** *** *** *** _____ options nodate nonotes ps=60;
data genmtx (type=distance);
input C J K V B W H races $;
cards;
0.000 0.024 0.004 0.021 0.040 0.047 0.032 C
0.024 0.000 0.012 0.024 0.020 0.037 0.019 J
0.004 0.012 0.000 0.015 0.026 0.027 0.023 K
0.021 0.024 0.015 0.000 0.034 0.043 0.018 V
0.040 0.020 0.026 0.034 0.000 0.023 0.021 B
0.047 0.037 0.027 0.043 0.023 0.000 0.010 W
0.032 0.019 0.023 0.018 0.021 0.010 0.000 H
;
proc cluster method=average nonorm nosquare;
id races;
proc tree;
run;
The CLUSTER Procedure
Average Linkage Cluster Analysis
C
文档评论(0)