- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Matlab生物信息学工具箱新增功能——处理GEO系列数据
本文讨论Matlab生物信息学工具箱用于获取并处理NCBI基因表达数据库(GEO)系列数据集的新功能。
引言
NCBI基因表达数据库是存储高通量微阵列实验数据最大的公共数据库,包括四种实体类:GEO平台(GPL)、GEO样本(GSM)、GEO系列(GSE)和修订GEO数据集(GDS)。
一条平台记录描述了实验所用芯片的元件列表如:cDNAs、寡核苷酸探针集等,每个平台记录拥有一个唯一、稳定的GEO存取号(GPLxxx)。
一条样本记录描述每个样本的处理条件、操作、每个元件的丰度测量值,每个样本记录拥有一个唯一、稳定的GEO存取号(GSMxxx)。
一条系列记录定义了一组相关的样本并提供了整个研究的焦点和描述信息,也包含描述提取数据的表、概要结论或分析,每个系列记录拥有一个唯一、稳定的GEO存取号(GSExxx)。
一条数据集记录(GDSxxx)代表一个生物学和统计学可比较的GEO样本的集合,GEO数据集是GEO样本数据的修订集。
Matlab生物信息学工具箱提供了获取并解析GEO格式数据文件的函数,GSE, GSM, GSD和GPL数据可以通过调用getgeodata函数获取,该函数也能将获取的数据保存到一个文本文件中,GEO系列记录可以SOFT格式文件和制表符分割的文本格式文件获得,可以用geoseriesread函数读取GEO系列文本格式文件,用geosoftread函数读取通常相当大的SOFT格式文件。
本文用实例演示如何调用这些函数获取并解析GEO系列数据,以获取GSE5847数据集为例,进行统计分析, 该数据集包括15个发炎引起的乳腺癌(IBC)病例和35个非发炎引起的乳腺癌病例的肿瘤基质和上皮细胞的实验数据。(Boersma et al. 2008)
获取GEO系列数据
函数getgeodata返回一个数据结构包含来自GEO数据库的数据,可本地保存这些数据用于下一步的Matlab子程序,用geoseriesread解析GSE文本格式文件。
gseData = getgeodata(GSE5847, ToFile, GSE5847.txt)
gseData =
Header: [1x1 struct]
Data: [22283x95 bioma.data.DataMatrix]
该数据结构包含一个Header 域保存系列数据的元数据,一个数据域保存系列矩阵数据。
探索GSE数据
数据域中的GSE5847矩阵数据以DataMatrix对象存储,该对象类似于Matlab二维阵列数据结构,但增加了行名、列名等附加的元数据,这些对象的属性可以象其它Matlab对象一样存取。
get(gseData.Data)
Name:
RowNames: {22283x1 cell}
ColNames: {1x95 cell}
NRows: 22283
NCols: 95
NDims: 2
ElementClass: double
行名是芯片探针集的标识符,列名是GEO样本存取号。
gseData.Data(1:5, 1:5)
ans =
GSM136326 GSM136327 GSM136328 GSM136329 GSM136330
1007_s_at 10.45 9.3995 9.4248 9.4729 9.2788
1053_at 5.7195 4.8493 4.7321 4.7289 5.3264
117_at 5.9387 6.0833 6.448 6.1769 6.5446
121_at 8.0231 7.8947 8.345 8.1632 8.2338
1255_g_at 3.9548 3.9632 3.9641 4.0878 3.9989
系列元数据存储于Header域,其中Header.Series域包含系列信息,Header.Sample域包含样本信息。
gseData.Header
ans =
Series: [1x1 struct]
Samples: [1x1 str
您可能关注的文档
最近下载
- 一种窄冠带条多层缠绕搭接量计算方法及应用.pdf VIP
- 2025年融媒体中心全媒体记者招聘考试笔试试题(附答案).docx VIP
- L10010022《病理学》课程标准.pdf VIP
- 【必备收藏】幼儿建构区游戏指导完整版课件-.pptx VIP
- 主题策略-【专题报告】CANSLIM4.0策略:叠加企业生命周期.docx VIP
- 最新人教版九年级化学演示、分组实验统计表.xls VIP
- GB 50797-2012 光伏发电站设计规范.docx VIP
- 插画设计-PPT课件(全).pptx
- 古代牝户手抄本雨花香PPT课件.pptx VIP
- 【大单元整体教学设计】人教版初中化学九年级上册 第三单元物质构成的奥秘 课题1 分子和原子.doc VIP
文档评论(0)