交通数据处理第三章聚类分析2
聚类分析 2;系统聚类法的基本思想
先将n个样品各自看成一类,然后规定样品之间的“距离”和类与类之间的距离。选择距离最近的两类合并成一个新类,计算新类和其它类(各当前类)的距离,再将距离最近的两类合并。这样,每次合并减少一类,直至所有的样品都归成一类为止。
;(1)确定数据点之间的距离计算方法
(2)确定数据分类后类与类之间距离的计算方法;Pdist
Y = pdist(X)
计算样品对的欧式距离。输入参数X是n х p的矩阵,矩阵的每一行对应一个样品,每一列对应一个变量。输出参数Y是包含n(n-1)/2个元素的行向量,用(i,j)表示第i个样品和第j个样品构成的样品对,则Y中的元素依次是(2, 1), (3, 1), …, (n, 1), (3, 2), …, (n, 2), … , (n, n-1);Y = pdist(X, metric)
输入参数metric指定计算距离的方法,metric为字符串,可用的字符串如下表所示。
;Y = pdist(X, ‘minkowski’, p)
计算样品对的闵可夫斯基距离,输入参数p为闵可夫斯基距离计算中的指数,默认情况下,指数为2
;Squareform
Z = squareform(y)
Z = squareform(y, ‘tomatrix’)
y = squareform(Z)
y = squareform(Z, ‘tovector’)
前两种调用时把pdist函数输出的距离向量y转为距离矩阵Z,而后两种调用则是把距离矩阵Z转换为pdist函数输出的距离向量y。;Linkage函数
Z = linkage(y)
利用最短距离法创建一个系统聚类树。输入参数y是样品对距离向量,是包含n(n-1)/2个元素的行向量,通常是pdist函数的输出。
输出Z是一个系统聚类树矩阵,它是(n-1)*3的矩阵,这里的n是原始数据中观测样品的个数。Z矩阵每一行对应一次并类,第i行上前两个元素为第i次并类的两个类的类编号,初始类编号为1~n,以后每形成一个新类,类编号从n+1开始逐次增加1.
Z矩阵的第i行中的第3个元素为第i次并类时的并类距离
;Z = linkage(y, method)
利用method参数制定的方法创建系统聚类树,method是字符串,可用的字符串如下所示
;Z = linkage(y, method, metric)
metric用来指定计算点与点之间距离的方法;;Dendrogram函数
H = dendrogram(Z)
由系统聚类树矩阵Z生成系统聚类树形图。输入参数Z是由linkage函数输出的系统聚类树矩阵。输出参数H是树形图中线条的句柄值向量,用来控制线条属性。;H = dendrogram(Z, p)
生成一个树形图,通过输入参数p来控制显示的叶节点数。
;H = dendrogram(…, ‘labels’, S)
通过一个字符串数组或字符串元胞数组设定每一个观测值的标签。当树形图中显示了全部的叶节点时,叶节点的标签记为相应观测的标签;当树形图中忽略了某些节点时,只包含单个观测的叶节点的标签记为相应观测的标签。;;;Cophenet函数
Cophenet函数用来计算系统聚类树的cophenetic相关系数
Cophenetic相关系数反映了聚类效果的好坏,cophenetic相关系数越接近于1,说明聚类效果越好,可通过Cophenetic相关系数对比各种不同的距离计算方法和不同的系统聚类法的聚类效果;cophenetic相关系数
对给定的样本观测矩阵X,用y = (y1,y2, … , yn(n-1)/2)表示由pdist函数输出的样本的距离向量,用(i, j)表示由第i个样本和第j个样本构成的样本对,则y中的元素依次是样本对(2,1),(3,1),…,(n, 1),(3,2),…,(n,2), …,(n,n-1)的距离
设d = (d1, d2, …, d n(n-1)/2 ),d中元素依次是样本对(2,1),(3,1),…,(n, 1),(3,2),…,(n,2), …,(n,n-1)中初次并类时的并类距离,称为cophenetic距离;cophenetic相关系数 是指y与d之间的线性相关系数
;c = cophenet(Z, Y)
在上述调用中,cophenet函数用pdist函数输出的Y和linkage函数输出的Z计算系统聚类树的cophenetic相关系数。输出参数c为Cophenetic相关系数
;;;inconsistent函数
用来计算系统聚类树矩阵Z中每次并类得到的链接的不一致系数,其调用格式如下
Y = inconsistent(Z)
Y = inconsistent(Z,d)
参数Y是一个(n-1)*4的矩阵
您可能关注的文档
- 人体、号型、规格讲义.doc
- 交互设计7移动端设计规范.pptx
- 人教版中考英语基础过关课件:九年级全册[Units11—12](38页).pptx
- 人教版七年级直线、射线、线段同步训练.doc
- 京信数字微波设备工程应用指南.pptx
- 人教版化学九年级上册第三单元物质构成的奥秘单元测试题含答案.doc
- 人教版六年级数学上册百分数PPT课件.pptx
- 五高一地等窗口场景优化工作介绍江苏.pptx
- 人教版化学九年级上册第二单元我们周围的空气复习学案及测试题(无答案).doc
- 人文教育2.doc
- 2025-2026学年天津市和平区高三(上)期末数学试卷(含解析).pdf
- 2025-2026学年云南省楚雄州高三(上)期末数学试卷(含答案).pdf
- 2025-2026学年甘肃省天水市张家川实验中学高三(上)期末数学试卷(含答案).docx
- 2025-2026学年福建省厦门市松柏中学高二(上)期末数学试卷(含答案).docx
- 2025-2026学年广西钦州市高一(上)期末物理试卷(含答案).docx
- 2025-2026学年河北省邯郸市临漳县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省石家庄二十三中七年级(上)期末历史试卷(含答案).docx
- 2025-2026学年海南省五指山市九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省唐山市玉田县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省邢台市市区九年级(上)期末化学试卷(含答案).docx
最近下载
- 我们仨电子版.pdf VIP
- 妇幼保健院十五五发展规划.docx VIP
- 小学生必背古诗75首(打印版).pdf VIP
- 期末重难点检测卷(含解析)-2026年数学三年级下册北师大版.pdf VIP
- ZXK-7532数控立式钻铣床主运动、进给系统及控制系统的设计.doc VIP
- 2025至2030中国碳纤维复合材料在航空航天领域应用现状及投资机会报告.docx
- 雅马哈psre313使用说明书.pdf VIP
- 临床成人患者医用粘胶相关性皮肤损伤预防及护理-MARSI.pptx
- 电力行业深度:算力之争,电力为王,聚焦美国AI能源革命核心赛道.pptx VIP
- 房地产上市公司偿债能力分析【文献综述】.docx VIP
原创力文档

文档评论(0)