基于聚类的蛋白质家族建立.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于聚类的蛋白质家族建立 ——Final Project Proposal 2010 备选提案 多国语词典 多媒体推荐系统 蛋白质比对分析处理系统 地震/气象预测系统 可行性分析 分析标准 方案所要用到的主要技术与课程的相关性 方案所要用到的数据集规模和来源能否满足课程设计要求 实现方案可能遇到的问题 现有 确定选用的方案 蛋白质比对分析处理系统 Introduction 世界上所有蛋白质的种类难以估计,一个细胞内就有上千种结构、功能、分子质量不同的蛋白质。 氨基酸 20种基本氨基酸(一级结构) 蛋白质的结构和功能(三级结构) 同源蛋白质 Protein sequences can elucidate the history of life on earth The study of molecular evolution generally focuses on families of closely related proteins. The members of protein families are called homologous proteins or homologs. 同源蛋白质可以在物种内也可以在物种间。 蛋白质之间的关系远近可以体现出物种间进化关系的远近。 蛋白质的氨基酸序列包含了判断这一关系所需要的全部信息,因此通过氨基酸序列比对,可以得到物种的进化树。 蛋白质的氨基酸序列数据库(约80G) (download from uniprot) 美国生物信息中心 Expectation 通过比对蛋白质氨基酸序列,得到蛋白质的相似度,从而得到同源性高的蛋白质 最终建立蛋白质家族 初步思路 1、输入输出: 输入:蛋白质的氨基酸序列 Key/value:蛋白质名称/氨基酸序列 输出:同源性高的蛋白质序列 2、方法:cluster 3、抽象模型: (1)坐标系的建立: ·维度:以最长的蛋白质序列的氨基酸个数作为维度数 目,张开一个空间;每个坐标轴上有20个离散刻度(分别是每个氨基酸对应的数值); ·坐标:根据氨基酸各个参数确定一个公式,以确定每个氨基酸对应的数值 ; (2)散点空间位置的确定: 根据每个蛋白质的氨基酸序列把它对应到空间上的点。 (3)两点距离公式(比对): 参考模型 Set-Similarity Join partition the data across nodes balance the workload minimize the need for replication self-join and R-S join cases control the amount of data kept in main memoryon each node. even if we use the most fine-grained partitioning, the data experiments on uniprot datasets Synthetically increased in size, to evaluate the speedup and scale upproperties of the proposed algorithms using Hadoop. Clustering 结果评价 参考文献 Nelson, D. L., and Cox, M. M. (2005) Lehninger Principles of Biochemistry, fourth edition, Worth Publishers. * LOGO 组长:许坤 组员:高晨曦、曹天骄、韩蕊 主讲:曹天骄 韩蕊 联系方式:xukun@ What is protein? Components of organisms: Enzymes (metabolism) Transport (O2, membrane …) Movements (muscles) Antibodies (immunity ) Brain … … Protections (horns, skins…) a carboxyl group(羧基) an amino group(氨基) side chains, or R groups

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档