基因表达据分析实验指导.doc

  1. 1、本文档共40页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基因表达据分析实验指导

基因表达数据分析实验指导 1.?实验基本情况 2.?实验方法: 2.1?表达谱数据的下载 2.2?将表达谱数据导入matlab软件 2.3?补缺失值 2.4?数据标准化 2.5?差异表达基因筛选 2.6?选择差异表达的基因 2.7对差异表达基因送入功能注释 附?-- Matlab的Microarray Data Analysis ? 1.?实验基本情况 实验目的: 掌握和了解常用的基因表达分析过程,包括数据下载、数据预处理、差异表达分析和基因功能注释。了解GEO、SMD、Matlab软件和WebGestalt数据库的使用。 实验方法: 详见下面的描述。 实验作业: 每位同学从GEO或SMD数据库上下载一套表达谱数据,进行数据预处理,差异表达基因分析或聚类分析等数据分析过程(依据具体问题操作,arraytool或matlab或其他软件均可),基因功能注释(WebGestalt、GO、KEGG等数据库)。 实验实例分析 ===================================================================== 2.?实验方法: 2.1?表达谱数据的下载 2.1.1?从GEO数据库上下载表达谱数据 1)?网址及数据库概述 GEO主页:/geo/ GEO数据库中包含四种类型的条目,分别以GPLXXXX(检测平台),GSMXXXX(生物样本),GSEXXXX(基因表达系列),GDSXXXX(基因表达数据集)表示。其中GPLXXXX有SAGE、MPSS、单色芯片(Affymetrix)、双色芯片(spotcDNA/DNA)几种;GSEXXXX与GDSXXXX的区别在于:GSE是实验者一次一起提交的数据集,包含原始的数据文件,而GDS是GEO数据库的维护者根据样本和实验平台的特性进行整理的,与原有的GSE数据可能有样本量上的差异;一般GDS都有对应的GSE数据;GDS不包含单独的原始数据,如果想获得其原始数据,需要链接到他的GSE网页上下载;GDS样本间的可比性更强,如果有GDS就先分析GDS。 2)数据下载 GEO可提供两种数据的下载,一种是整理好的soft格式数据,是一个数据矩阵,包含多个基因在多个条件下的表达值,如GDS2220.soft;另一种是单独的数据文件,每张芯片一个数据表格,如GSE3519_family.xml文件夹里的文件,就是对应GDS2220这次实验的原始数据。另外还有一个GDS2220.annot数据是提供基因描述的。具体的下载方式如下: 在GEO主页上(图1),可以通过浏览(browse)或query中输入疾病名字,如风湿性关节炎(rheumatoid?arthritis)在Datasets后,点击go进行搜索,结果如图2。 图1. GEO的主页 图2.GEO的搜索结果 之后点击你感兴趣的GDS集合,如GDS2220,就进入每套数据的页面了(图3)。 图3.GDS2220数据的浏览界面 在图3中,点击下拉菜单中的DataSet?SOFT file,就能下载GDS2220.soft文件;点击Annotation SOFT file就可以下载GDS2220.annot文件;点击seriers?family?miniml?file就可以下载GSE3519_family.xml文件夹,但这个速度较慢,这里有个小窍门,大家可以在迅雷中新建一个下载任务,粘贴地址:?/pub/geo/DATA/MINiML/by_series/GSE139/GSE139_family.xml.tgz?,这里GSE139是可以替换的,比如要下载GDS2220配套的数据,就直接把两个GSE139都替换成GSE3519就可以直接下载了;点击series family soft file下载的文件与GDS2220.soft类似,只是样本是GSE3519的数据,可能和GDS2220的样本不同,这里是相同的。 也可以通过以下方式寻找特殊平台的数据。 3)?文件描述 (a)GDS22.soft 该文件从上到下分为三个部分:第一部分,数据集合基本描述,文字形式,以!或#开头;第二部分,表格的表头,如“ID_REF??????????????????IDENTIFIER??????GSM80309?????????GSM80310?????????GSM80311?????????GSM80312?????????GSM80313?????????GSM80314?????????GSM80315????????GSM80316?????????GSM80317”,以tab键分割,表示下面的数据部分每一列的含义;第三部分,数据,如GDS2220.soft中第一列为每一个基因的编号,第二列是基因名字,第三列是GSM

文档评论(0)

1444168621 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档