- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第六章_聚类分析;引言
地质学中有很多分类研究的问题,如沉积岩、古生物、矿物、油气藏、油气地球化学勘探指标的分类等是一些直接分类的例子;油气资源评价、油源对比等研究中也有分类;地层划分属于另一种分类。为叙述方便,在此把分类的具体目标统称为个体(样品或变量)。
聚类分析:根据个体之间的亲疏程度,将它们进行逐级定量分类的一种多元统计分析方法。
根据分类的不同方式,又把聚类分析分为聚合法和分解法聚类分析。 ;§1 聚类分析和聚类统计量; 聚合法聚类分析是按个体在性质或成因上的亲疏关系,把个体逐级聚集成类的一种多元统计分析方法。又称为点群分析,; 例如{1 1 2 2 3 3}是6个个体,据个体的相似性,把个体分为3类,结果是:{1 1}、{2 2}、{3 3}。这是一种把大类分解成小类的问题,地层的岩性段划分属于这类问题。; 1. 聚合法聚类统计量; 样品间的相似性就是矩阵行间的相似性,对样品聚类就是将矩阵中相似程度高的行合并为类;
变量间的相关性就是矩阵列间的相关性,对变量聚类就是将矩阵中相关程度高的列合并为类。;(6-1); 在上述相似系数矩阵中, rij =rji , rii=1。rij 越接近1,Xi与Xj的性质越相近。R描述了各样品间的相似程度。;(6-2);为避免dij过大造成计算溢出,将上式改为:;(2) R型聚类分析统计量;(6-4);(6-5); 在n 维直角坐标系中,2个点间的距离为:; 仅介绍分解法中的最优分割法。
n个样品m个变量的观测值构成一个数据矩阵:;第1段;总离差平方和: (常数) ;为样品的总数; ; 对于给定的数据来说,S是个常数,S1最小,S2必然最大。因此可将段内离差平方和;聚 合 法;§2 聚合法聚类分析;(4) 按上述方法进行第3级聚类、第4级聚类、…,直到全部个体合并为1类为止。;一、聚合法聚类分析的准备-数据预处理;二、一步形成法聚合法聚类分析;3、解例;解:(1)写出原始数据阵;(2)选择适当的相似统计量如下:;4.2聚合法聚类分析;聚合归类过程; 对于n维(样品点)或m维(变量点)空间的2个点来说,其距离在概念上是明确的(点间线段的长度)。但2类间的距离就有不同的定义,既可定义为2类中相距最近2点之间的距离,又可定义为2类中相距最远2点之间的距离,还可以取2类的重心距离等。; 1.最短距离法
(1) 最短距离
如图,定义p类和q类间的最短距离为:;图6-3 类r与类f的最短距离; 油源对比包括原油与原油、原油与生油岩的对比,主要是解决油源的问题。设编号为①、②、③的样品是取自生油层k1、k2、k3的岩样,编号为④的样品是取自储层k0的油样。需解决的问题是:k0的油来自哪个生油层?表6-2给出了油源对比常用的甾烷族化合物相对含量。; 计算个体(样品)点间的距离矩阵,记为:; 表明岩样k3与油样k0的甾烷族化合物相对含量最接近,应合成1类,记为r, r={③,④}。同时按式(6-9)计算类r与其它各类间的最短距离矩阵,记为D (1) :; 由D(2)可知,四个样品以距离D = 9.6553聚为一大类。按聚类顺序绘制聚类谱系如下: ; (2) 最短距离法聚类的基本过程
①准备工作
计算个体(样品或变量)点间的距离矩阵:;2. 最长距离法; 定义p类、q类间的平均距离为两类中所有个体间距离的平均值:; 假设类p、q 的重心分别是 、 ,那么类 p、q 间的重心距离为:; 类r与另外的类f 间重心距离的递推公式为:; 相关类统计量包括相关系数、相似系数。相应的聚合聚类法有近邻联接法、远邻联接法和类平均法,相应的递推公式为:;统计量; 四、聚类结果的选择
采用不同的聚类方法,其聚类过程都是相同的,但结果却不一定完全相同。究竟哪种方法分类结果更好?目前尚无合适的衡量标准。在实际应用中,要结合其它地质理论及资料,分析不同方法给出的分类结果,从中确定一种合理的分类方案。;图6-4 云南省某地超基性岩岩样聚类谱系
原创力文档


文档评论(0)