ClusterTreeView中文翻译版..docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ClusterTreeView中文翻译版.

Cluster and TreeView中文翻译版 Linda Harbin medical university 2010-10-3介绍:Cluster和TreeView是分析并可视化DNA芯片数据或是其它基因组数据集的软件程序,Cluster(很快就有一个新的名字)用多种不同的方式组织分析数据,TreeView则将这些组织好的数据可视化,这个软件的下一个版本会将这两个软件合成为一个应用程序。这个说明书是使用这个软件的一个参考,而不是对软件中所用方法的全面分析。很多方法都是从标准的统计聚类中得到的,对于聚类分析的那些非常好的教科书,我们会在最后的参考书目中给列出,参考书目中还包括最新的生物科学的论文,尤其是那些所用的方法与我们的非常相似的论文。Cluster导入数据:用Cluster的第一步就是导入数据,当前版本的Cluster只接受以tab键为分隔符的数据格式,比如Excel,通过点File Format Help可以得到输入格式的说明。依照惯例,在输入表格中,行代表基因,列代表样本或是不同的观察,下面的例子就是一个时间过程的输入文件:第一列中的每一行(基因)一般都代表标识符(绿色的字符),第一行中每一列代表样本的标签(蓝色的字符),此时的标签表示时间进程,红色字符代表的是每一行基因的种类是什么,本文件的YORF代表酵母开放阅读框,这个地方可以是任意的字母或数字的值,在TreeView中,应用它可以将每一行的基因连接到外部的网站中。剩下的数据就是每个基因在不同样本中的表达值,2行4列的“5.8”表示基因YAL001C在2小时观察到的数据为5.8。空数据是允许的,就用空值表示(里面什么都没有),如,YAL005C在2小时的数据就是空的。我们很可能要对输入数据额外的添加一些信息,最大的Cluster的输入文件如下所示:黄色的区域是可有可无的,默认情况下,TreeView用第一列的ID号作为每个基因的标签,NAME那一列是对每个基因的进一步描述性标签,从而与第一列的标签相区别,关于GWEIGHT和GORDER这两列和EWEIGHT和EORDER这两行的内容会晚一些再解释。示例数据:可在/software/demo.txt/software/demo.txt.这个网站中得到,这个数据时酵母基因表达谱数据,下载后并导入到Cluster中。Cluster会呈现如下的导入信息:调整过滤数据:可以通过Filter Data和Adjust Data 这两项对数据进行调整和过滤。调整数据:Log Transform Data:将每个数值取对数代替原来的数值,即x=log2(x)。Normalize Genes and/or Arrays:将每一行每一列的所有数值都乘以一个标度因子S,使每一行每一列的数值的平方和为1.0(每行/列的S是不同的)Mean Center Genes and/or Arrays:将每一行或列的所有值减去这一行或列的平均值,使这一行或列的平均值为0。Median Center Gene and/or Arrays: 将每一行或列的所有值减去这一行或列的中位数,使这一行或列的中位数为0。以上的每项调整不是连在一起的,每项的先后顺序是很重要的,在进行之前要仔细的考虑好。操作的顺序为:Log transform all valuesMean center rowsMedian center rowsNormalize rows在什么情况下,我们需要对数据进行调整呢?Log transformation:许多DNA微阵列实验的结果是荧光比值,基本上都需要进行对数化处理。比如一个不同时间点的基因表达值,并将结果与时间点0的值相比较,假设在时间点1,这个基因表达没有改变,在时间点2,它表达上调两倍,在时间点3,它表达下调两倍(与时间点0相比)。则在这三个时间点上,最初的比值为:1,2,0.5。但在多数情况下,我们认为2倍上调和2倍下调的变化幅度应该是一样的,只不过是方向不同,一个上调,一个下调,但在我们的数据中,时间点1和2的变化为1(2-1),时间点1和3的变化为-0.5(0.5-1)。这样的话,上调两倍的变化幅度就是下调两倍变化幅度的2倍,通常情况下,我们并不想要这样的结果,如果我们将所得到的最初数据都取对数,则每个时间点的表达值变为0,1,-1,这样的话,上调2倍和下调两倍对于时间点0的变化幅度就一样了,都是1。在大多数的应用中,都推荐将数据对数化。Mean/Median Centering:假设这样的一个实验:你观察一下大量的肿瘤样本与同一个参考样本相比较的情况,这个同一个参考样本来自于细胞系的集合。对于每个基因,你会得到一系列的比值,这个比值与这个基因在参考样本中的表达水平相关,由于参考样本与你的实验室毫无关联的

文档评论(0)

kaiss + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档