源代码gff reader and genomicfeature处理测序数据-peaker.pdfVIP

源代码gff reader and genomicfeature处理测序数据-peaker.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

#源代码#GFF_ReaderandGenomicFeature处理数据

peaker

在高通量数据中,其中一个最流行的注释数据格式就是GFF

格式文件,因此对GFF文件的解析也是非常重要的过程。在python语

言中,HTSeq是一个非常强大的专门处理高通量数据的库,其中

就包括解析GFF文件的函数。通常来说,我们通过GFF_Reader函数

来解析并GFF格式文件内容,然后可以产生一个迭代循环,并描

述features特征。这些对象都是class“GenomicFeature”的type,并且每

一个都描述了GFF文件中的一行信息。

GFF_Reader函数有两个参数,我们看下说明文档

可见GFF_Reader的参数为file文件或sequence序列,在object对

象上进行迭代,然后产生GenomicFeature对象。而GenomicFeature也

是HTSeq库中的一个类,他的描述如下所示

可以看到它可以产生一个metadata,在GFF_Reader过程中,

可以跳过所有包含“#”注释的行,然而以“##”开头的行并不能跳过,因

为这些行就包含所谓的“metadata”。这种metadata有##keyvalue的格

式。当一个metadata被的时候,他将被存放在一个metadata字典

中。

在实际应用中最简单的处理注释信息的方法就是使用

GenomicArray,通过typecode=0orGnomicArrayOfSets。如果你有一个

flatfile包含注释信息,每一行都描述了一个对应的feature特征,那么

你就可以在这一行中进行,获得信息,起始终止位点等,创

建一个GenomicInterval对象,然后在一个列表中。例如如果你有

一个tab分割的文件如下所示

那么你就可以从中加载信息,代码如下

现在你就可以看到这里是否有一个feature,你只需要查询genomic

array即可

喜欢本文吗?欢迎加入云生信跟大家一起进步~

文档评论(0)

honglajiao + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档