- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数学地质 王建伟.docx
聚类分析
1.概念
聚类分析又称群分析、点群分析或族分析等。Cluster Analysis,指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。在数学地质中,聚类分析指研究样品和变量分类的一种统计方法。研究样品称为型聚类分析,研究变量称型聚类分析。
2.原理
聚类分析主要方式是点的聚合不同数据点的联系。首先定义样本间和类与类之间的距离,将最短距离的两类合并,再重新计算合并后的类与原来的其它类之间距离,且按最小距离归类,重复此过程, 每次减少一类,直到所有的样本归成一类为止。过程通常利用图表表示,依次切断图中最高连线,得到若干个类, 直到获得满意的类数为止。
聚类分析的基本思想:首先假定所研究的对象存在着不同的相似性,制定客观合理的分析指标,以此为依据,把一些相似程度大的样品聚为一类,即关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品都聚合完毕,形成一个由小到大的分类系统,最后把分类系统直观地用图形表示出来,形成分类图。
3.研究方法
R型聚类分析:根据变量在各样品上的观测值对变量进行分类。
Q型聚类分析:根据样品在各变量上的取值对样品进行分类。
根据样品或变量的相似程度,把相似的归为一类,不相似的归为另一类,关系密切的归入一个小类,关系不太密切的归入一个大类。直到把所有的样品或变量归类完毕,形成一个由小到大的分类系统,最后得出一个树枝状分类谱系图。
4.应用
样品的分类:如矿物、岩石、地层、古生物、岩相、构造、含油气盆地等。
变量的分类:如指标的共生组合关系,区别有矿异常和无矿异常,评价矿床。
5.步骤
(1)原始数据的预处理,使各变量统一量纲。
变量的均值为0,方差为1。
相关系数值不变
(2) 相似系数
考虑对样品分类,每个样品可看成M维变量空间的向量,两样品向量的夹角余弦
通常用相似系数做Q型聚类分析,的值越接近1,说明两样品的相似程度越高,将两样品的相似系数算出来,就可以得到样品的相似系数矩阵。
(3)距离系数:如果把n个样品看成p维空间中的n个样品点,则样品间的亲疏程度可用它们的相互距离来衡量。两样品间的欧式距离为:
有时为使所求距离在某一确定范围变化,常采取一常数m,采用下列公式求欧式距离:
;
其中dij的值越小,表示两样品点的相似程度越大,把任意两点距离算出之后,就可以得到距离系数矩阵它是一个n阶对称矩阵。
6.谱系图的建立
性矩阵中,包含研究对象是否相似的信息,构成了分类的基础,但不直观。
谱系图:在相似性矩阵的基础上,作直观反应分类结果的二维图。
1、一次计算成图法
2、逐次计算成图法
形成原则
(1)若选出一对样品在已经分好的组中都未出现过,则把它们形成一个独立的新组。
(2)若选出的一对样品中,有一个出现在已经分好的组里,则把另一个样品也加入到该组中去。
(3)若选出两个样品,它们分别出现在已经分好的两个组中,则把这两个组联在一起。
(4)若选出的一对样品都出现在同一组中,则这对样品就不再分组了。
根据以上原则对所有数据进行处理,直到全部分类。
7.实例应用
从科尔沁油田马家铺地区九佛堂组取储层岩样 6 个 , 每个样品测取i,标号1、2、3、4、5、6。四项参数:排驱压力(Pd ) 最大孔喉半径(Rd) 中值孔喉半径(Rc) 和主孔喉半径( R主) 的原始数据R。
首先看是否需要进行数据变换 , 由于原始数据中各指标量无多大差别 , 故不必进行数据变换 。然后选定适当的相似统计量 , 本例用样品间的距离系数作为相似性统计量 , 由式(2)算得相似系
数矩阵 D =[ d ij] 6×6 如下 :
矩阵 D 中找出 d I j 的最小值 , 将 i 与 j 聚为一类 , 如果 i j 则划去第 i 行和第 i 列 ;如果 i j , 则划去第 j 行和第 j 列 。然后在剩下的 d ij 中重复做上述工作 , 直到最后。
根据(表 2) 作出 6 个样品的谱系图(见图 2):
根据实际需要 , 选择距离系数 d ij =1 为分类界限 , 将样品分为 3 类(见表 3) 由谱系图可直观,得到
表 3 可看出 , 4 号样品为排驱压力低 , 孔喉半径大 , 物性好的 Ⅰ 类油藏 ;1、2号样品次之,为物性中等的 Ⅱ 类油藏 ; 3、5 和 6号样品为排驱压力高 , 细孔喉 , 物性???差的 Ⅲ 类油藏 。
8.个人理解
聚类分析的目的是用数学方法对给定的样品找出一个合理的
文档评论(0)