生物信息学中的算法问题要点.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
评价 优点: 坚实的理论基础 对结果的加强: 不仅仅是包含所有子串 而是犯错误的概率最小 缺点: 慢 效果不好 Local Search算法: 可行解: 片段的排列 相邻关系: 两个片段交换位置 目标函数: 超串长度 算法框架: (0)计算并保存每两个子串之间的overlap数 Repeat: (1)随机选择排列P,得到相应的超串的长度t, (2)Repeat: 在P的邻域内进行搜索, 如果邻域内存在P’对应的超串长度小于t, 则P-P’; Until: P是邻域内的最小点。 Until 终止条件满足 Heuristics: 1. 将排列环起来,搜索最短的环状超串 2. 整个group的移动 3. 寻找排列中使得overlap最小的地方,将环截断,形成多个线性的子超串contigs 结果: 找出的串可以近似看作最短超串,算法可独立用于求最短公共超串问题; 重复的片段在contigs的两侧; 通常按这种方法找出的contig是原始串的子串; 拼接水稻基因组联盟1,10,11号染色体,效果得到了很高的评价 用于华大基因中心水稻完全图项目 DeNOVO算法 质谱的简化模型: 考虑26个英文字母, 每个字母有权重W(c) 对字符串S, 已知质谱= 问:字符串=? 难点: 1。一次打断形成两个离子,混杂在一起 2。峰的类型不知道,是b离子,y离子还是混合体? 3。离子的修饰:脱氨、脱水、同位素等 组合优化问题: 已知谱L, 求序列S=A0A1A2…An , 满足: 同时 max f( spectrum(S), L ) 根据生物学知识确定合适的函数f 结果1: 答案: LVNELTEFAK 结果: LVNELTEFAK LVNELTHLPK LVNELTYSPK 结果2: 答案: HPEYAVSVLLR 结果: HPEYAVSVLLR HPEYAVWLLR HPEYAVPVFPK 结果3: 答案: HLVDEPQNLLK 结果: HLVDEAGPNLLK HLVDEQPNLLK HLVDEPQNLLK 蛋白质相互作用网络分析 复杂的蛋白质相互作用网络 酵母: 2617蛋白, 11855连接 任务1:根据拓扑关系聚类 目标:将蛋白质分类,使得 类内蛋白质连接紧密 类间蛋白质连接稀疏 思路: 第一步:先转化到欧式空间 第二步:使用Ward法聚类 转换方法: 寻求方向Y,满足: 每个结点都尽量得靠近其邻居 即:min 定理:Y是对称阵AT (L-A)A的最小特征值 对应的特征向量 其中L是Laplacian矩阵 聚类结果分析: 1。类内连接紧密,类间稀疏 2。同一类蛋白质功能类似 聚类谱系图 任务2:蛋白质相互作用网络的谱分析 1 2 3 . . . 2617 1 0 1 0 0 1 0 0 2 1 0 0 1 0 0 1 3 0 0 0 0 0 1 0 . 0 1 0 0 0 0 0 . 1 0 0 0 0 0 0 . 0 0 1 0 0 0 0 2617 0 1 0 0 0 0 0 谱分析 1。正特征值相应的特征向量,绝对值较大分量相应蛋白质近似成团; 2。正特征值相应的特征向量,绝对值较大分量相应蛋白质近似成二部图; 团和二部图 团: 分析:同一团的蛋白质生物学功能相似 应用:预测未知蛋白质的功能 结果: 分析了48个团, 预测了100个未知蛋白质的功能 部分结果Nature 5月份文章实验验证 二部图: 分析: 同一复合物的不同亚基 重要蛋白质的备份 一个完整生化流程,不同阶段的反应物 应用: 预测Pathway 目前工作: 1。系统生物学,ncRNA研究 2。比较基因组学: 猪、人、鼠非编码区比较 3。生物信息专用计算机: 快速的Blast及全基因组比对 * * * * * * tandem affinity purification 经典解法及其结果: maximum flow: Edmonds-Karp algorithm (1972) enumeration of all minimum cuts: Picard-Queyranne algorithm (1980) complexity: O (n3) (n is the number of residues in structure) 6. 序列注释 输入: DNA序列 输出: 各个功能位点:基因、启动子、ncRNA。。。 可以利用的知识: 生物学规律 正例和反例 当前最好的方法: HMM 形式语言 7. 蛋白质质谱鉴定 生物学问题: 原有的Edman方法昂贵、耗时 根据质谱来测定蛋白质氨基酸序列 什么是质谱? 样品制备 酶切 或者 物理方法切割 一级质谱:片

文档评论(0)

4477769 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档