- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四章 聚类分析 石油与天然气数学地质课件 地球科学学院 朱焕来 制作 4.1聚类分析及聚类统计量 4.2聚合法聚类分析 第四章 聚类分析 4.3有序样品的聚类—最优分割法 4.4应用实例 4.5复习思考题 4.1聚类分析及聚类统计量 一、聚类分析的定义 聚类分析又称簇群分析,它是按照客体在性质或成因上的亲疏关系,对客体进行定量分类的一种多元统计方法。在岩石的分类、矿物的分类、古生物的分类、石油成因研究、油藏类型研究、地化资料研究中也都有许多分类问题或需用分类方法解决的问题。因此聚类分析被地质工作者广泛使用 二、聚类分析的分类 根据分类对象(客体)的不同 Q型聚类分析:样品 R型聚类分析:指标(即变量) 有序客体分类 无序客体分类 从聚类所采用的方法 聚合法 分裂法 客体之间的关系 4.1聚类分析及聚类统计量 三、聚类统计量 1、概念 x y 0 2 3 1 6 4 5 2 3 4 5 6 1 0 6 5 4 3 2 1 如果采用距离作为指标,那么样品2与3和样品4与5的距离最小,它们各自先聚为一类;其次,样品2,3,1再聚为一类,样品4,5,6又聚合为一类;最后这两类聚合为一大类。分类完毕后以谱系图表示这6个样品的分类结果,从中可以看出6个样品的亲疏关系。 例:六个样品各测得两项指标(xi,yi)(i=1,2,…,6),标绘在如图示的二维平面上。 谱系图 4.1聚类分析及聚类统计量 三、聚类统计量 1、概念 聚类统计量(又称相似性统计量)是用来衡量样品之间或变量之间相似或相关程度的指标。 ?衡量样品之间相似程度者称为Q型聚类统计量 ?衡量变量之间相似程度者称为R型聚类统计量 如果有n个样品,每个样品观测了m项指标(变量),以xij表示第i个样品的第j项指标,则n个样品m个变量的观测值xij(i=1,2,…,n;j=1,2,…,m)构成一个Xnm的数据矩阵: 4.1聚类分析及聚类统计量 ①矩阵的第i行表示第i个样品m个变量的观测值,可把第i行示为m维空间的一个点或一个矢量。 ②矩阵的第j列表示第j个变量的n次观测值,可把第j列示为n维空间的一个点或一个矢量。 ③由①可知,研究样品的相似性把相似程度高的样品归为一类,即所谓的Q型聚类分析,就等价于研究矩阵行与行之间的关系,即对矩阵的行进行归类。 ④由②可知,研究变量之间的相关关系把相关程度高的变量归为一类,即所谓的R型聚类分析,就等价于研究矩阵列与列之间的关系,即对矩阵的列进行归类。 4.1聚类分析及聚类统计量 1、常见的相似性统计量 (1)距离系数 ① Q型聚类的距离系数dij 把n个样品看成m维空间中的n个样品点,则样品间的亲疏程度,可用它们互相间的距离来衡量。第i个样品[xi1,xi2,…,xim]与第j个样品[xj1,xj2,…,xjm] 间的欧氏距离为: 为使所求距离在某一确定范围内变化,将第i个样品xi与第j个样品xj间Q型聚类的距离系数定义为: 欧氏距离 修正欧氏距离 4.1聚类分析及聚类统计量 任意两样品点距离算出之后,就可得到样品距离系数矩阵D=[dij]n?n,(n阶对称矩阵)。 显然,这是一个n阶对称矩阵,且d11= d22 = d33=…=dnn=0 dij值越小,表示两样品点的相似程度越大。 ② R型聚类的距离系数dij* 把m个指标看成n维空间中的向量。第i个指标向量[xi1,xi2,…,xin]与第j指标向量[xj1,xj2,…,xjn] 间的欧氏距离为: 4.1聚类分析及聚类统计量 欧氏距离 修正欧氏距离 为使所求距离在某一确定范围内变化,将第i个变量xi与第j个变量xj间Q型聚类的距离系数定义为: 4.1聚类分析及聚类统计量 任意两变量距离算出之后,就可得到指标距离系数矩阵,(m阶对称矩阵) 显然,这是一个m阶对称矩阵,且d11= d22 = d33=…=dmm=0 dij值越小,表示两变量相关程度越大。 (2)相似系数cos?ij ① Q型相似系数cos?ij :常用来度量样品的相似程度。把n个样品看成m维空间中的向量,则第i个样品向量(xi1, xi2 ,…,xim)与第j个样品向量(xj1, xj2 ,…,xjm)间的夹角余弦cos?ij称为此二样品的相似系数,见下式: 4.1聚类分析及聚类统计量 相似系数: -1?cos?ij ?1,其值赿接近1,二者的相似程度赿高。 把两两样品的相似系数算出来,可得到样
您可能关注的文档
最近下载
- 驼乳粉的技术要求.pdf VIP
- 哈工大_理论力学_I(第6版)习题详解.pdf
- 2025年新高考数学一轮复习:函数的图象(九大题型)(讲义)(学生版+解析).pdf VIP
- 陶喆出轨道歉会PPT(源文件锐普独家首发)0708.pptx VIP
- 2025年新高考数学一轮复习:圆的方程(八大题型)(讲义)(学生版+解析).pdf VIP
- 2025年新高考数学一轮复习:数列求和(九大题型)(练习)(学生版+解析).pdf VIP
- 发酵驼乳粉的技术要求.pdf VIP
- 罗斯蒙特3051C压力变送器校准调试方法.doc VIP
- 视频监控系统工程质量管理体系和保证措施.docx VIP
- 660MW超超临界火电机组深度调峰经济性评估与对策.docx VIP
文档评论(0)