[PPT模板]ppt聚类分析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[PPT模板]ppt聚类分析

第五组计11 曾建强 芯片数据的 聚类分析 芯片数据的聚类分析 一、聚类的含义 二、距离、相似函数 三、分层聚类 四、K-means聚类 五、聚类结果的可视化 一、聚类的含义 聚类分析起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。 随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识难以确切地进行分类,于是人们逐渐地把数学工具引用到了分类学中,形成了数值分类学,之后又将多元分析的技术引入到数值分类学形成了聚类分析。 一、聚类的含义 聚类分析内容非常丰富,有系统聚类法、动态聚类法、有序样品聚类法、模糊聚类法、图论聚类法、聚类预报法等。 一、聚类的含义 生物芯片数据聚类是指根据基因片的基因表达数据,将基因按照不同的功能,或者相同的表达行为进行归类。 聚类的基因表达谱为研究人员提供基因表达差异,启动子分析,表达模式研究等等便利的条件。目前已经有很多种聚类的方法应用到基因芯片的研究当中,如分层聚类、K 均值聚类(K-means clustering)、自组织图谱SOM 、PCA等等。 二、距离和相似函数 二、距离和相似函数 1、距离 变量的测量尺度不同,聚类的结果也不同 在生物芯片数据分析(基因表达数据分析)中,我们一般考虑间隔尺度变量,即基因数据间的“距离”。 二、距离和相似函数 二、距离和相似函数 距离有多种定义方法,在聚类分析中最常用的是欧氏距离,即有 当各变量的单位不同或测量值范围相差很大时,应先对各变量的数据作标准化处理。最常用的标准化处理是,令 其中 和 分别为第 个变量的样本均值和样本方差。 一、最短距离法 定义类与类之间的距离为两类最近样品间的距离,即 最短距离法的聚类步骤 (1) 规定样品之间的距离,计算 个样品的距离矩阵 ,它是一个对称矩阵。 (2) 选择 中的最小元素,设为 ,则将 和 合并成一个新类,记为 ,即 (3) 计算新类 与任一类 之间距离的递推公式为 最短距离法的聚类步骤 在 中, 和 所在的行和列合并成一个新行新列,对应 ,该行列上的新距离值由(6.3.2)式求得,其余行列上的距离值不变,这样就得到新的距离矩阵,记作 。 (4) 对 重复上述对 的两步得 ,如此下去直至所有元素合并成一类为止。 如果某一步 中最小的元素不止一个,则称此现象为结(tie),对应这些最小元素的类可以任选一对合并或同时合并。 二、最长距离法 类与类之间的距离定义为两类最远样品间的距离,即 二、距离和相似函数 2、相似函数 聚类分析方法不仅用来对样品进行分类,而且可用来对变量进行分类,在对变量进行分类时,常常采用相似系数来度量变量之间的相似性。 变量之间的这种相似性度量,在一些应用中要看相似系数的大小,而在另一些应用中要看相似系数绝对值的大小。 相似系数(或其绝对值)越大,认为变量之间的相似性程度就越高;反之,则越低。 聚类时,比较相似的变量倾向于归为一类,不太相似的变量归属不同的类。 二、距离和相似函数 相似函数一般满足的条件 (1) ,当且仅当 和 是常数; (2) ,对一切 ; (3) ,对一切 。 最常用的两个相似系数 三、分层聚类法 三、分层聚类法 分层聚类法即系统聚类法 系统聚类法是聚类分析诸方法中用得最多的一种。 基本思想是:开始将个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。 常用的系统聚类方法: 一、最短距离法 二、最长距离法 三、中间距离法 四、类平均法 五、重心法 六、离差平方和法(Ward方法) 三、分层聚类法 1、 分层聚类(Hierarchical c

文档评论(0)

skvdnd51 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档