- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实用标准文案
精彩文档
个人总结:我觉得要做好电子延伸,必须要把它上升到系统的高度。基本同意starrweb战友的提法(那个图8错)。电子延伸系统应该有以下几个部分组成:预处理(pre-processing)、聚类(clustering)、拼接(assembly) 和分析(analysis)。一.预处理仅仅去除载体序列是不够的:1.去除载体序列,用crossmatch程序。载体序列库为 HYPERLINK /repository/vector \t _blank /repository/vector2.将ESTs序列将与人重复序列库(RepBase, HYPERLINK \t _blank ) 比较,去除重复序列,这样可以提高拼接的效率。 3.其它潜在的污染序列(如鼠DNA序列、线粒体、核糖体DNA 序列等) 前些时候就发现一些EST数据中存在线粒体序列污染(发了第一个SOS的帖子,得到了我在DXY的第一分),大家应该根据具体的数据来源来分析可能的污染.4.还有几种污染属于研究前沿,至今没有很好的解决。包括:来自基因组DNA的污染、来自pre-mRNA的污染、跨越非常规内含子(不是以GT或GC开头和AG结尾的内含子)的EST,这些都会影响拼接的成功率和正确率。二.聚类(clustering):在对大量ESTs数据进行分析时, 情况比较复杂,从概念上区分“聚类”和“拼接”是必要的。聚类过程的目的是将标记同一基因相同转录本的、具有重叠部分(over-lapping)的ESTs整合至单一的簇(cluster)中。用BLAST和fasta进行同源性搜索其实就是聚类的前导工作。搜索UNIGENE数据库也是一个完成聚类的捷径(本论坛 HYPERLINK /bbs/post/view?bid=73id=1361500sty=1tpg=1age=0 \t _blank /bbs/post/view?bid=73id=1361500sty=1tpg=1age=0 讲了这个方法),但是我的经验是UNIGENE是一个错误比较多的数据库,最好在选取了unigene的某个cluster以后对它进行处理,再在基因组上校正一下错误,我发现unigene的含错率还是比较高的,会对你的下一步拼接造成很大的影响。所以不可偷懒不校正。另外各种拼接软件拼接前其实也预先完成了一个聚类的过程。聚类分为不严格的和严格的聚类( loose and stringent clustering ):不严格的聚类: 不严格的聚类系统产生大的、“松散”的类。在所形成的每一类中, 表达基因ESTs 数据的覆盖率高, 含有同一基因不同的转录形式, 如各种选择性剪接体、由选择不同的多腺苷酸位点(polyadenylation site) 而产生的不同的转录本等。其主要缺点在于每一类中可能包含旁系同源基因(paralogous expressed gene) 的转录本, 信噪比低, 序列的忠实性低。这种系统的代表, 如STACK 采用的基于字的聚类算法, 即d-square 聚类。严格的聚类: 严格的聚类系统产生高度相关的聚类成员, 因此忠实性更加可靠。但是, 表达基因ESTs数据的覆盖率低, 因此所含有的同一基因的不同转录形式少。这种系统的代表, 如TIGR的Gene Indices 所采用的类似于BLAST 和FASTA的序列比对程序FLAST。三.几种拼接程序及其评价:前四个比较经典1.PHRAP(phragment assembly program)( HYPERLINK /index.html \t _blank /index.html ) 是一个拼接霰弹法产生的序列片断的程序。注意特征为:允许使用所判读的完整序列而不仅仅是经剪切的高质量部分;在重复序列出现时可以结合使用者提供的或内部计算的数据质量来提高拼接的正确性;构建一个由高质量部分镶嵌的拼接程序而不是所谓的一致序列;可提供广泛的包括质量值在内的关于拼接的信息,可控制非常大的数据集。但它单独不能提供编辑或浏览的功能。最佳搭配是PHREP+PHRAP+CONSED,该套系统就可以高效、规模化地进行EST序列的拼接延伸。缺点是如果以可变剪切的基因来试验,Phrap可正确地拼接出它所产生的一个蛋白,但是不能发现其它可变剪切的结果,如AMP2基因。2.CAP3该软件是CAP(contig assembly programme)的改进版本,可在线进行。该软件适用于EST拼接,可快速去除不能拼接在一起的序列,运用动态规划算法可容忍序列的部分错误,可剪切掉所判断序列中5·和3·端碱基质量不高的区域。它在计算重叠时使用碱基质量值加以控制,建立多重比对,产生一
文档评论(0)