- 1、本文档共97页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第05讲序列比对全解
* BIOINFORMATICS * 4. 序列比对的主要用途 1. 用于系统发育分析 (phylogenetic analysis) 通过序列比对,可以寻找序列间的同源性(相似性),这种同源相似性是序列间进化关系的一种反映,所构建的数据矩阵成为系统发育分析的基础。 2. 结构预测 (structure prediction) 将新序列与已知结构的蛋白质序列进行比对,可以通过序列同源性来粗略地推测其结构的相似性。 * BIOINFORMATICS * 3. 序列基序鉴定 (sequence motif identification) 局部排列可以鉴定蛋白质和核苷酸序列中潜在的序列和功能基序。 4. 功能预测(function prediction) 蛋白质序列间的高度相似性通常意味着同源序列间的功能相似性。 5. 数据库搜索(database search) * 在分子生物学中,DNA或蛋白质的相似性是多方面的,可能是核酸或氨基酸序列的相似,可能是结构的相似,也可能是功能的相似。研究序列相似性的目的之一是,通过相似的序列得到相似的结构或相似的功能。 * What you want to learn when evaluating an alignment is whether it is random or meaningful. If it is meaningful, then how much? 序列比对的算法问题类似于字符串中的最长共同子序列问题(longest common subsequence, LCS) (Robinson, 1938) LCS: 定义一个比对操作的集合 (e.g. Substitution, Insertion or Deletion ) ,操作将一个序列比对元素转换至另一个序列的相应元素,相应的操作被赋予一定的分值 优化比对:是以最低的代价或获取最高分值的比对 在两个序列比对中,可能会构建出多个优化的比对 FSEY-THRGHR : : ::: :: FESYTTHRPHR FSEYT-HRGHR : :: :: :: FESYTTHRPHR 4.1序列比对的算法问题 * * BIOINFORMATICS * 例如,对序列X=CGATCAG(长度为7)和序列Y=CGTCAG(长度为6),只需插入一个间隔即可。对位排列后的两个序列为: X:CGATCAG Y:CG ?TCAG 下面就不同类型的编辑操作定义函数w,它表示“代价(cost)”或“权重(weight)”。 对字母表A中的任意字符a、b,定义: (5-1) 4.1序列比对的算法问题 * BIOINFORMATICS * 这是一种简单的代价定义,在实际应用中还需使用更复杂的代价模型。一方面,可以改变各编辑操作的代价值,例如,在蛋白质序列比较时,用理化性质相近的氨基酸进行替换的代价应该比完全不同的氨基酸替换代价小;另一方面,也可以使用得分(score)函数来评价编辑操作。下面给出一种基本的得分函数: (5-2) 4.1序列比对的算法问题 * BIOINFORMATICS * 在进行序列比对时,可根据实际情况选用代价函数或得分函数,即选用式(5-1)或式(5-2)。 (1)、两条序列s和t的比对的得分(或代价)等于将s转化为t所用的所有编辑操作的得分(或代价)总和; (2)、s和t的最优比对是所有可能的比对中得分最高(或代价最小)的一个比对; 4.1序列比对的算法问题 * BIOINFORMATICS * s: AGCACAC—A t: A—CACACTA cost(s,t)=2 使用前面代价函数w的定义,可以得到下列比对的代价。 4.1序列比对的算法问题 * BIOINFORMATICS * s: AGCACAC—A t: A—CACACTA score(s,t)=5 而使用得分函数p的定义,可以得到下列比对的得分。 进行序列比对的目的是寻找一个得分最高(或代价最小)的比对。 4.1序列比对的算法问题 * BIOINFORMATICS * 序列对位排列中,有时要用到子序列(sub-sequence)的概念。例如,序列A含200个碱基,序列B含500个碱基。如果整个序列A与序列B的一部分完全一致,则称A为B的子序列。 A和B进行对位排列的简单方法。如果A有两个区域分别与B一致,则需要将A分为两部分[图5-5(b)],两端和中间分别插入间隔即可。 4.1序列比对的算法问题 BIOINFORMATICS * 随着所比较的序列数目和长度的增加
您可能关注的文档
- 第02章城市轨道交通基础信号设备全解.ppt
- 第03章分析化学中的误差与数据处理全解.ppt
- 第03章孔、轴公差与配合全解.ppt
- 第02章妊娠期妇女的护理全解.ppt
- 第03章算法与数据结构-07排序全解.ppt
- 第03章网孔分析法和结点分析法全解.ppt
- 第03章计算机总线技术全解.ppt
- 第03章药物的杂质检查全解.ppt
- 第03讲使用DTD声明XML元素全解.ppt
- 第03章:放大电路全解.ppt
- 铁路隧道底鼓风险动态评估与综合整治技术的深度剖析与实践应用.docx
- 吸收犯存在范围的多维审视与界定.docx
- 大学生陌生人信任度:现状剖析与影响因素的深度探究.docx
- 全球金融危机下上海经济学门类毕业生就业的冲击与调适:基于多维度的剖析与展望.docx
- 小型软件团队敏捷风险管理:策略、实践与优化路径.docx
- 锦红片在ERCP术后高淀粉酶血症及胰腺炎预防中的临床价值探究.docx
- 法治视角下我国湿地保护的困境与突破.docx
- 从法律基石到多元实践:非物质文化遗产进校园的深度剖析与展望.docx
- 行政决策责任追究制度的法治化进路.docx
- 基于ORACLE的校园一卡通消费系统设计方案.docx
文档评论(0)