- 1、本文档共88页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
生物信息学中的算法问题-中科院计算所生物信息学室
生物信息学中的算法问题 Version 1.0 卜东波 贺思敏 赵 屹 中科院计算所生物信息学课题组 华大-曙光生物信息学联合实验室 2002/12/03 主要内容 生物信息学中的算法问题 我们的工作 (ICT IBP BGI) 一、生物学 vs 信息科学 生物信息学的研究目标 特点:天然的形式化 碱基:A,C,T,G四种 常见氨基酸:20种 目标: 以DNA序列作为源头 揭示“基因组信息结构的复杂性及遗传语言的根本规律”; 之后进行蛋白质结构和功能预测。 生物信息学的两个挑战 高性能计算: 海量的数据 每14个月翻一番 算法: 海量的数据使得原有算法不适用 新需求 生物信息学的研究流程 第一步:生物学问题的提出 生物学为主 第二步:数学建模、算法设计 信息科学为主 第三步:结果解释、实验验证 生物学 生物信息学脉络 生物信息学问题概览(1) 基因组时期:序列-结构-功能 DNA测序和拼接 比对 进化树 蛋白质质谱鉴定 序列注释:基因预测、细胞定位 结构预测:RNA结构预测、蛋白质折叠 。。。。。。 生物信息学问题概览(2) 后基因组时期:相互作用-网络-功能 生物芯片(DNA芯片、蛋白质芯片) 相互作用网络 调控网络 E-Cell 药物设计 。。。。。。 1. 大规模测序和拼接 生物学问题: 从DNA片段恢复原始序列 全自动的测序仪器:MegaBace 需要拼接! 因为整个基因组太长(上M),而每次只能测得一个500的小片断(read) 问题:如何根据read恢复原始顺序? 类比:10本圣经,都从随机点起始剪成500个字母左右的小纸条,问:给你这么一堆小纸条,你能读出圣经来吗? 拼接问题的数学描述 数学问题: 公共超串 输入:设有字符串S,预先估计其长度大约为n,现在已知一个字符串集合R={R1,R2…Rn},其中每个Ri都是S的一个子串。问:原始序列S是什么? 算法: Hamiltion路径类 Euler路径类 Local Search类 2. 序列比对 生物学问题: 序列的相似性-同源性 原始序列: S: acgctg T: catgt 可行解: S: a c g c t g - T: - c – a t g t S: a c g c t g - T: - c a – t g t S: - a c g c t g T: c a t g - t - 序列联配: 两序列联配: 全局联配(Global Alignment) 局部联配(Local Alignment) 空位处罚(Gap Penalty) 多序列联配 全基因组比对 Open Problems: 快速的多序列比对算法 快速的全基因组比对算法 3. 进化树 生物学问题: 根据形态、DNA、行为学特征 推导种群进化关系树 进化树问题的数学描述 输入: N个物种的特征(DNA、形态。。。) 输出: 以这N个特征为叶节点的一颗树 距离法: 聚类谱系树 简约法: 最小突变树 4. 结构预测 结构大致决定功能 一级结构 (氨基酸序列) 二级结构 (螺旋、片层、回环) 超二级结构(aba…) 三级结构 (由二级结构组合成三维构像) 四级结构:多个亚基 实验测定方法: x-ray晶体衍射 NMR核磁共振 实验耗时、昂贵 一个蛋白质结构测定需要$200K or more 需数月或者更长 有些蛋白质还无法测定 蛋白质结构(2) 理论上可计算的。 能量最低原则 变元: 主干的psi/phi angles 侧链的旋转 优化问题,但是 搜索空间极其巨大 局部极值点 三种预测方法 ab initio 方法 根据第一原理 计算量极大,实际上不可行 同源建模方法: 基本假设:序列同源-结构相似 有效,但是必须具有同源的序列 Threading方法: 基本假设: 自然界中蛋白质主链模式是有限的 ~90% 新蛋白质和PDB某个已知蛋白质结构相似 推论: 多个蛋白质会具有相同的主链模式 预测问题-识别问题 能够处理序列上不相似,但是结构相似的情况 Threading方法 思路: 将序列尽可能好地放入结构模板中; 设计评价函数,对匹配情况进行打分; 关键: 已知的结构模板库 衡量匹配情况的打分函数 寻求最优的算法; 数学描述: Protein Threading by PROSPECT prediction examples from CASP3 contest 5. 蛋白质DOMAIN识别 生物学观点: 一个蛋白质结构可以包含多个DOMAIN: DOMAIN是蛋白质折叠、功能和演化的基本单位 不同的蛋白质具
文档评论(0)