GEO数据库简介课件.ppt

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

在GEODataSets中每个数据集组个体都各自确定一个实验,而在GEOProfiles中每个数据集组都对应多个表达谱个体。对平台上的每个基因(比如基因A),有多个样本)测量值。多个相关样本构成一个数据集,从中可以产生单个或多个基因的表达谱比较图。从GEO数据库主页面右侧找到搜索栏,直接输入要查找信息的关键词或者检索词,如“mir29a”或者“GDS2225ANDfto”,就会搜索到相应的DataSets和Profiles。从主页面右侧直接打开库浏览器,从中按照不同的“系列”、“平台”、“样本”、“物种”、“历史”来进行选择需要的数据类型。直接从GEO数据库的ftp服务器下载。/geo/直接从NCBI主页用Entrez进行检索。GEO数据主要存放在GEODataSets和GEOProfiles

两个数据库内。Entrez是NCBI建立的生物医学数据库集成检索系统。Entrez集成系统的最大特点是通过任何一个数据库检索出的信息可直接链接到Entrez其它数据库并找到相关的检索结果。GEO可和其他NCBI数据库一样用标准关键词的方法和基于文本布尔检索、基于序列检索、基于特有表达行为挖掘检索或结合这些参数来进行检索查询例如:在GEODataSets中可以用检索词“prostatecancerANDhuman[Organism]”寻找有关人类前列腺癌微阵列实验数据集。例如:在GEOProfiles数据库中可以用检索词fto[GeneSymbol]AND(Smok*)搜索所有与吸烟相关并包含肥胖基因的相关实验的基因表达谱。以数据集组GDS402为例来介绍一下GEO数据库提供的一些数据挖掘分析工具。非加权组平均法聚类小图实验数据下载数据分析工具Findgenes:Findgenenameorsymbol:直接查找数据集组中该基因的基因表达谱。Findgenesthatareup/downforthiscondition(s):可以根据选择的实验筛选条件,来找到一系列随该筛选条件有较明显表达差异的基因表达谱。以Fto(肥胖基因)在二型糖尿病与肾脏功能试验中的表达谱为例:从原始样本记录中提取的基因表达值以红色的条形柱表示。蓝色条形柱代表内部样本的百分等级信息,以提供该基因与阵列上所有其它基因相互比较的相对表达水平值。改变实验条件对数据进行重新排列。点击各个样本,可以打开相关样本的页面。2.Compare2setsofsamples:选择比较方式和显著性水平选择A和B两组样本组进行A、B样本组的比较查看两组基因可供比较的表达谱。3.Clusterheatmaps聚类分析图(Clusteranalysesareoneofthemostpowerfulmethodstomineandvisualizehigh-dimensionaldata.)包含三种聚类算法:层级聚类方法:(Single-Link:最近距离、Complete-Link:最远距离、Average-Link:平均距离)分散性聚类方法:

K-Medioids算法(特点:用类中的某个点来代表该聚类;优点:能处理任意类型的属性;对异常数据不敏感)

K-Means算法(特点:聚类中心用各类别中所有数据的平均值表示;优点:应用最为广泛;收敛速度快;能扩展以用于大规模的数据集;缺点:倾向于识别凸形分布、大小相近、密度相近的聚类;中心选择和噪声聚类对结果影响大)按基因处于染色体上位置来聚类可以对聚类图的聚类方法、高低表达状态颜色重新进行选择。在聚类图中框选其中一部分,可以以txt格式下载这一部分基因数据,也可以产生框选的这部分基因对不同样本的表达量的比较图。还可以在GEOProfiles库里对这些基因进行比较。4.Experimentdesignandvaluedistribution(箱线图)aboxplotdisplayingthedistributionofexpressionvaluesofeachSamplewithinaDataSet.TheplotisusefulfordeterminingwhethertheDataSetisnormalized,i.e.,thevaluedistributionsaremedian-centeredacrossSamples.?可以在GEO核酸数据库中进行序列比对。GEO2R?isaninteractivewebtoolthatallowsusersto

您可能关注的文档

文档评论(0)

176****0418 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档