- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
转录组测序(RNA-Seq) Jun Yang RNA-Seq 的技术背景 RNA-Seq又称转录组高通量测序(transcriptome sequencing)或称为全转录组鸟枪法测序(Whole Transcriptom Shotgun Sequencing WTSS) 2005年以来, 以Roche 公司的454 技术、Illumina 公司的Solexa 技术和ABI 公司的SOLiD 技术为标志的新一代测序技术诞生, 之后HelicosBiosciences 公司又推出单分子测序(Single molecule sequencing, SMS)技术。新一代测序又称作深度测序或高通量测序。 实验流程 标准信息分析流程 相关概念 高通量测序中,每测一个碱基会给出一个相应的质量值,这个质量值是衡量测序准确度的。Q20与Q30则表示质量值大于等于20或30的碱基所占百分比。 Q20值是指的测序过程碱基识别过程中,对所识别的碱基给出的错误概率。 质量值Q20,错误识别概率是1%,即正确率是99%;质量值Q30,错误识别概率是0.1%,即正确率是99.9%;质量值Q40,错误识别概率是0.01%,即正确率99.99%;Q“N”0的质量值,就是正确率有N个9的百分比。 N50 即覆盖50%所有核苷酸的最大Unigene长度或覆盖 50%所有核苷酸的最大序列重叠群长度。 相关概念 高通量测序时,在芯片上的每个反应,会读出一条序列,是比较短的,叫read,它们是原始数据;有很多reads通过片段重叠,能够组装成一个更大的片段,称为contig;多个contigs通过片段重叠,组成一个更长的scaffold;一个contig被组成出来之后,鉴定发现它是编码蛋白质的基因,就叫singleton;多个contigs组装成scaffold之后,鉴定发现它编码蛋白质的基因,叫unigene。 Unigene是UniqueGene的英文缩写,意为广泛通用的基因数据库,通过电脑对相同基因座(Locus)的收集整理集合形成一个非冗余的基因数据库。 相关数据库概念 NR是NCBI里的非冗余蛋白数据库,即NCBI的blastp程序中的NR数据库 ,我们可以用自己的query序列,blast搜索这个数据库,得到这些query序列的具有序列相似性的蛋白序列。 NT:NCBI的blast页面,选择nucleotide blast,数据库选others,也就是(nr/nt). SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。 KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组百科全书)是基因组破译方面的数据库。 COG是Cluster of Orthologous Groups of proteins(蛋白相邻类的聚簇)的缩写,即直系同源基因数据库。 COG是对基因产物进行直系同源分类的数据库,每个COG蛋白都被假定来自祖先蛋白,COG数据库是基于细菌、藻类、真核生物具有完整基因组的编码蛋白、系统进化关系进行构建的,我们将Unigene和COG数据库进行比对,预测Unigene可能的功能并对其做功能分类统计,从宏观上认识该物种的基因功能分布特征。 GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,堆积因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准. 相关概念 基因的编码区(Coding region),亦称为“编码序列”(Coding sequence)或“CDS”(Coding DNA Sequence),是指mRNA序列中编码蛋白质的那部分序列。CDS也等同于ORF(open reading frame)是编码蛋白质的序列,以ATG开始--终止密码子结束。 环境转录组也可以这样做 使用RNA-seq手段对实验样本进行转录组分析,关注个体或者组织器官在不同环境条件下基因表达的动态变化,挖掘生物对逆境适应的分子机制。 方案设计思路建议: (1)植物个体受到较多环境因素的影响,包括温度、干旱、涝害、光照、盐碱、污染物、虫害以及病原菌侵染等等,相应采取的应答策略也较为多样,可以通过激素信号分子和细胞表面受体调控相关基因的表达。建议设置多个关键处理时间点,研究植物个体短时间内和长时间内转录组动态变化趋势;揭示同一器官组织在不同环境胁迫下或不同器官组织在同一环境胁迫下基因的时空表达模式; (2)动物器官组织样本主要来源畜牧动物、水产动物、昆虫、人以及模式动物小鼠和线虫,关注点为温度处理、光照处理、污染物处理、病原菌/虫感染、用
文档评论(0)