前言—双向聚类简介.ppt

下载文档 降价啦

1044
0
约3.68千字
约 33页
2017-12-17 发布于江西
举报
版权申诉
保障服务

前言—双向聚类简介.ppt

1、本文档共33页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

前言—双向聚类简介

例1: BicatYeast 例1: BicatYeast(Jaccard) 例1: BicatYeast(Jaccard) 上表显示五种双聚类算法的成对Jaccard 指数。 Jaccard 指数是两个双聚类结果相似性的评估，0代表完全不一致，1代表完全一致。我们可以看到五种算法找到的是非常不同的双聚类集，必要的预处理步骤不同可以部分解释这一现象，因为这些预处理步骤是为了使数据符合各算法的设想而进行的。另一个重要的方面，我们选择第一种算法以获得一个彼此间尽可能不同的算法集。这样，实践者就很容易尝试各种R语言双聚类的方法，然后选择一个效果最好的对给定数据集聚类。例1: BicatYeast(Jaccard) 例1: BicatYeast(Jaccard) 例1: BicatYeast(Jaccard) 例2: Tourism Data 澳大利亚旅游业调查 ————伍伦贡大学（ University of Wollongong ）商学院的调查：假期活动的问题 1003人，56个问题区块（blocks），每个区块15个问题使用两个区块样本（30个问题）例2: Tourism Data 例2: Tourism Data 例2: Tourism Data 展望用基准问题测试更加困难的情况下的算法比较不同应用领域的算法完善选择双聚类算法的准则开发基于双聚类算法的模型双聚类结果的统计学检验 * A Toolbox for Bicluster Analysis in R ——Sebastian Kaiser and Friedrich Leisch 前言在过去的十年中，双向聚类方法在双向数据分析（two- way data analysis）的不同领域内越来越受欢迎。期刊上也发表了种类繁多的双向聚类算法和分析方法。在本文中,我们介绍了R语言中 biclust程序包,其中包括了双向聚类算法集、双向数据（two way data）预处理方法，以及验证和可视化双向聚类结果的技术。第一次,像R语言这样的一个平台提供了biclust程序包,在这个平台上，数据分析家们可以很容易地添加新的双向聚类算法并调整算法以适应他们特殊的需求。前言—双向聚类简介初始数据: 前言—双向聚类简介目标：发现行和列的子集合（subgroups），使集合内尽可能的相似，集合间尽可能的不同前言—双向聚类简介算法：大多数双向聚类算法都是迭代的。在已发现n-1个双聚类的情况下，我们可以忽略已发现的n-1个双聚类删除已发现的双聚类的行和列用随机值代替（mask）已发现的双聚类 biclust 程序包该程序包主要的函数为 biclust(data,method=BCxxx(),number,...) data: 经过预处理的数据矩阵 method: 使用的算法函数(如CC算法的BCCC()函数) number: 发现双聚类的最大数 ... : 算法的附加参数结果返回双聚类集中的一个对象 biclust 程序包—算法集 Bimax: 二元矩阵中1的集合 CC: 共同值（ Constant values ） Plaid : 共同行值或共同列值 Spectral : 共同连贯值（Coherent values ） Xmotifs : 连贯相关（Coherent correlation ） biclust 程序包—算法集：BCBimax() Bimax算法由Prelic等人在2006年提出，找到二元矩阵中1的集合。这个算法是迭代的: （1）重排行和列以将1集中在矩阵的右上角（2）将矩阵分为两个子矩阵若一个子矩阵中总是只有1，则返回该子矩阵。为了得到令人满意的结果，这种方法需要从不同的起点重复开始几次。尽管这种算法是为双聚类验证而设计的，但它本身也可作为一种双聚类算法。 biclust 程序包—算法集：BCCC() CC算法采取了Cheng and Church (2000)的算法.适用于有共同值的矩阵，开始于经标准化或简单的标准化处理的校正矩阵（ adjusted matrix ）设计者定义了一个分数其中，aiJ是i行的平均值,aIj 是j列的平均值， aIJ 是整体的平均值。如果子集合所得分数低于α水平高于整体数据δ分数（ δ-fraction of the whole data ），该子集合就称为一个双聚类。 biclust 程序包—算法集：BCCC() 该算法有三个主要的步骤：（1）去掉分数高于矩阵分数α倍的行和列（2）去掉分数最高的行和列（3）添加行和列直到分数达到α水平重复以上步骤直到得到双聚类的最大数或找不到双聚类。结果为固定的双聚