EST表达序列标签解答.pptVIP

下载本文档

16
0
约6.33千字
约 78页
2016-09-30 发布于湖北
举报
版权申诉

EST表达序列标签解答.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

SSH技术流程二、序列测定及数据分析随机挑取克隆进行5’或3’端测序序列前处理聚类和拼接基因注释及功能分类后续分析测序方向的选择根据不同的实验目的选择不同的测序方向： ◆ 5’端 5’上游非翻译区较短且含有较多的调控信息。一般在寻找新基因或研究基因差异表达时用5’端EST较好，大部分EST计划都是选用5’端进行测序的，而且从5’端测序有利于将EST拼接成较长的基因序列。 ◆ 3’端 3’端mRNA有一20－200bp的plyA结构，同时靠近plyA又有特异性的非编码区，所以从3’端测得EST含有编码的信息较少．但研究也表明，10％的mRNA3’端有重复序列，这可以作为SSR标记；非编码区有品种的特异性，可以作为STS标记． ◆ 两端测序获得更全面的信息。序列前处理 (pre-processing) 1. 去除低质量的序列（Phred） 2. 应用BLAST、RepeatMasker或Crossmatch遮蔽数据组中不属于表达的基因的赝象序列(artifactual sequences)。 ●载体序列(/repository/vector) ●重复序列(RepBase，) ● 污染序列 (如核糖体RNA、细菌或其它物种的基因组DNA等) 3. 去除其中的镶嵌克隆。 4. 最后去除长度小于100bp的序列。镶嵌克隆的识别 ? Back-to-back poly(A)+ tails. ? Linker-to-linker in middle of the sequence. ? Blastn/Blastx search. ESTs的聚类和拼接聚类的目的就是将来自同一个基因或同一个转录本的具有重叠部分(over－lapping)的ESTs整合至单一的簇(cluster)中。聚类作用：产生较长的一致性序列(consensus sequence) ，用于注释。降低数据的冗余，纠正错误数据。可以用于检测选择性剪切。 ESTs聚类的数据库主要有三个： UniGene (/UniGene) TIGR Gene Indices (/tdb/tgi/) STACK (http://www.sanbi.ac.za/) 不严格的和严格的聚类 (loose and stringent clustering) ◆ loose clustering ● 产生的一致性序列比较长 ● 表达基因ESTs数据的覆盖率高 ● 含有同一基因不同的转录形式，如各种选择性剪接体 ● 每一类中可能包含旁系同源基因(paralogous expressed gene)的转录本 ● 序列的保真度低 ◆ stringent clustering ● 产生的一致性序列比较短 ● 表达基因ESTs数据的覆盖率低 ● 因此所含有的同一基因的不同转录形式少 ● 序列保真度高有参照的和无参照的聚类 (Supervised and unsupervised clustering) ◆ Supervised clustering 根据已知的参考序列(如全长mRNA、已拼接好的一致性序列) 聚类。 ◆ Unsupervised clustering 没有根据参考序列进行分类。聚类的算法 ◆ 基于BLAST和FASTA的脚本(BLASTN and FASTA—based scripts) BLASTN和FASTA算法的本身目的在于寻找序列间的局部相似性或同源性，这与聚类的目的不同，即通过两个序列是否具有一致性的重叠或连续的比对来判断二者是否能归成一类。结合BLAST和FASTA查找的结果，采用解释性语言(如Perl)编写的脚本，具备了3方面的功能，即运行查找过程、解析(Parsing)查找的结果和按照用户定义的标准判断两个序列是否为一类。 ◆ 基于字的聚类(Word—based clustering) 基于字的聚类省略了所有的比对过程，其核心在于识别并计算序列间有多少长度为n的字(word)能够匹配，而且并未采用有关克隆的来源及注释信息，代表性的算法是d2_cluster。该算法为一种凝聚性(agglomerative)的聚类算法(即每一类从单一的序列开始，通过一系列的合并形成最后的类)，它可以被描述为最小联接聚类(minimal linkage clustering)。即，假设两条序列A和B，如果二者存在一定水平的相似，那么将A、B归于一类；即便二者并没有任何相似性，若存在序列C，而且C同时与A、B都有足够的相似性，那么也将A、B归于一类。类和类之间的联接标准是识别两个序列在一定大小窗口中相同的碱基数。常用的拼接软件 ◆ Phrap (/UWGC/analysisto