在Matlab探索基因表达数据分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
在Matlab探索基因表达数据分析

在Matlab中探索基因表达数据分析 日期:2012-06-25 来源:未知 作者:青岚 点击:547次 摘要: 本文利用Matlab及其生物信息学工具箱提供的函数识别差异表达基因并利用基因本体论确定差异表达基因的生物学功能。 引言 包含寡核苷酸或cDNA探针的微阵列可用来比较基因组尺度的基因表达谱,微阵列试验的重要目的在于确定不同条件下,如两种不同的肿瘤类型,是否存在统计显著的基因表达量的变化进而确定差异表达基因的生物学功能。 本文利用一个公共数据集来说明计算 本文利用Matlab及其生物信息学工具箱提供的函数识别差异表达基因并利用基因本体论确定差异表达基因的生物学功能。 引言 包含寡核苷酸或cDNA探针的微阵列可用来比较基因组尺度的基因表达谱,微阵列试验的重要目的在于确定不同条件下,如两种不同的肿瘤类型,是否存在统计显著的基因表达量的变化进而确定差异表达基因的生物学功能。 本文利用一个公共数据集来说明计算过程,这个数据集包括42个胚胎中枢神经系统肿瘤组织 CNS, Pomeroy et al. 2002 ,样本采用Affymetrix 公司出品的HuGeneFL基因芯片进行杂交。 这些CNS数据集 CEL文件 可在CNS实验网站获得,42个肿瘤样本包括10个10 个髓母细胞瘤, 10个横纹肌样脑膜瘤, 10个胶质瘤, 8个幕上原始神经外胚层肿瘤和4个正常人小脑,CNS原始数据集用鲁棒多芯片平均 RMA 和GC鲁棒多芯片平均 GCRMA 进行了预处理。 可以采用t检验和假发现率 FDR 来检测不同肿瘤类型间差异表达的基因,还可以探索与显著上跳基因相关的基因本体论术语。 载入基因表达数据 用Load命令加载MAT文件cnsexpressiondata包含三个DataMatrix对象,expr_cns_rma, expr_cns_gcrma_mle, and expr_cns_gcrma_eb,分别储存用RMA和GCRMA MLE和EB 预处理的基因表达值。 load cnsexpressiondata 在每个DataMatrix对象中,每行对应一个HuGeneFl芯片的探针集,每列对应于一个样本,行名是探针集的ID而列名为样本名,本文用expr_cns_gcrma_eb示例,当然也可以用其他对象。 调用get命令获取DataMatrix对象的特征。 get expr_cns_gcrma_eb Name: CNS gene expression data RowNames: 7129x1 cell ColNames: 1x42 cell NRows: 7129 NCols: 42 NDims: 2 ElementClass: single 确定DataMatrix对象expr_cns_gcrma_eb中的基因和样本的数目。 [nGenes, nSamples] size expr_cns_gcrma_eb nGenes 7129 nSamples 42 可以用基因符号来代替探针集的ID用于标记基因表达值,HuGeneFl芯片的基因符号在一个包含Java哈希表的MAT文件中。 load HuGeneFL_genesymbol_hashtable; 为hu6800genesymbol_hashtable变量创建一个基因表达值的基因符号的cell矩阵。 huGenes cell nGenes, 1 ; for i 1:nGenes huGenes i hu6800genesymbol_hashtable.get expr_cns_gcrma_eb.RowNames i ; end 用DataMatrix的rownames方法将exprs_cns_gcrma_eb中的行名设成基因符号。 expr_cns_gcrma_eb rownames expr_cns_gcrma_eb, :, huGenes ; 基因表达数据的过滤 首先除去没有基因符号的表达数据,如标成---的空符号。 expr_cns_gcrma_eb ---, : []; 在这个研究中很多基因没有表达或在样本间变化很小,这些基因需要用非特异性过滤除去。 用genelowvalfilter函数滤除绝对表达量值很低的基因。 [mask, expr_cns_gcrma_eb] genelowvalfilter expr_cns_gcrma_eb ; 用genevarfilter函数滤除样本间方差很小的基因。 [mask, expr_cns_gcrma_eb] genevarfilter expr_cns_gcrma_eb ; 确定过滤以后的基因数目。 nGenes expr_cns_gcrma_eb.NRows nG

文档评论(0)

womei + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档