《生物信息学》学习报告.docVIP

下载本文档

143
0
约2.9千字
约 5页
2016-08-06 发布于浙江
举报
版权申诉

《生物信息学》学习报告.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《生物信息学》学习报告

实验报告题目基于最大权值路径算法的 DNA 多序列比对方法学习报告学院：软件学院系计算机专业班级：软件工程学生姓名：何宇凡学号： 406629515011 2016年 6月 1 日摘要在对针对生物序列分析中的多序列比对问题，当输入数据量比较大时人们提出了很多启发式的算法来改基础知识 SPS(sum-of-pairs scoring)意义下的 NP 完全问题。现阶段常用的比对方法分类：精确比对方法、渐进比对方法、迭代比对方法、基于图论的比对方法。具体介绍如下：精确比对方法精确比对方法完全基于动态规划算法，最为经典的是多维 Needlman-Wunsch 算法，但其可行的计算维数为 3。渐进比对方法迭代地利用两序列动态规划算法，，，。，，，。，，，，。基于一个能产生比对的算法，，。，。，SAGA(sequence alignment by genetic algorithm）基于遗传算法构建，22 种不同的遗传算子，22 种遗传算子的使用。一种以有向无环图(directed acyclic graph，DAG)的表示方式取代行列表示的全新多序列比对方法。上述方法各有其不同的优点，但它们中的大多数对于大量输入序列，其时空复杂度依然是实际应用的一个瓶颈，至少都O(N2L2)其中 N L 是序列平均长度。针对这个问题，de Bruijn graph 方法应用到 DNA 全局多序列比对中，使多序列比对的时空复杂度降低到线性 O(NL)。基于最大权值路径算法的 DNA 多序列比对方法本算法用 de Bruijn graph[19]的形式表示输入序列，，，，。，，。，。，，。，。，，：MWPAlign(maximum weighted path alignment)DNA 多序列比对方法，，，CLUSTALW，T-Coffee HMMT(hidden Markov model training)。问题描述假设m 的生物序列是由 m 个字符组成的字符串，字符串中的字符取自于一个有限的字母表Σ，对于DNA序列，Σ包含 A、T、C、G 四个字母，分别代表 4 种不同的核苷酸，将其统称为碱基。对于蛋白质序列，Σ包含 20 个不同的字母，分别代表 20 种不同的氨基酸，将其统称为残基。给定 N 条序列组成的序列组 S=(s1，s2，。。。，sN)，为第 i 条序列的长度，则关于 S 的一个多序列比对可定义为一个矩阵。该矩阵有如下特性：如果删除空位“—”，则与对应序列 S′中不存在只由空位“?”组成的列多序列比对结果的评判标准目标函数用来评判序列比对结果的优劣。在多序列比对中，最常用的目标函数是 Sum-of-Pairs(SP)[20]。根据SP 目标函数，在比对结果的每一列中，将每对碱基给定一个分值 (例如，和其中代表空位x 和 y 代表两个不同的碱基)，然后将这些分值累加起来，得到每列的分值，最后将每列的分值累加，即可得到 SP-Score。假定比对结果为 S′=( sij ′ )，1≤i≤N，1≤j≤L，则SP-Score 计算公式如下如果输入数据是标准比对库(例如 BALIBASE(benchmark alignment database))中的序列，即有一个标准的比对结果，我们就可以计算一个相对的 SP-Score，定义为 SPS。假定对于标准库的输入序列，标准库中比对结果为S*，某方法比对结果为 S′则 SPS 定义如下 SPS=SP-Score(S′)/SP-Score(S*) 如果没有标准比对库，SPS 定义如下： SPS=SP-Score(S′)/(L×N×(N?1)/2) 显然，SPS 值反映了碱基对准确对齐的比率。为了反映所有序列准确对齐的比率，通常使用 CS(columnscore)值来计算。CS 值计算策略为：如果一列上的所有碱基都相等，则 ci=1；否则 ci=0同样，对于比对结果 S′CS值计算公式为基算法描述 MWPAlign 算法解决多序列比对问题的主要思想是：先求调和序列，然后用调和序列和每条输入序列进行总结本文提出了一种新的算法 MWPAlign，用图结构解决 DNA 多序列比对问题，其最大的特色有两点：① 不需要进行多序列比对就可以得到包含了所有输入序列中保守区域的调和序列；② 对于大量数据有较好的比对结果和较优的时间复杂度。此算法相对于其他方法可以明显降低时间复杂度，并且在序列变异率较低时取得了很好的比对结果。但是，此算法也