人工智能技术za生物信息学与.ppt

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
人工智能技术za生物信息学与

人工智能技术在生物信息学中的应用研究 刘滨 内容 生物信息学概述 生物知识 DNA介绍 蛋白质介绍 人工智能和自然语言处理技术在生物信息学中的应用 蛋白质序列和自然语言的相似性 蛋白质相互作用位点预测 远程同源性和折叠检测 资源 数据库 工具 研究方向 DNA介绍 碱 基 碱 基 配 对 DNA的空间结构 蛋白质介绍 20种标准氨基酸的英文简写 肽键 本实验室的人工智能技术和自然语言处理技术在生物信息学中的应用 采用Ngram寻找蛋白白质序列和自然语言的相似性 采用条件随即域(CRF)解决蛋白质相互作用位点预测问题。 采用N-gram, binary profile和N-nary profile模型结合支持向量(SVM)机解决蛋白质远程同源性和折叠识别的问题。 采用潜在语义分析(LSA)提高远程同源性检测效果。 蛋白质序列和自然语言的相似性 蛋白质序列和自然语言的相似性 Dong et al. N-gram Statistics and Linguistic Featrues Analysis of Whole Genome Protein Sequences. Journal of Harbin Institute of Technology. 2004 在此论文中,探索了蛋白质和自然语言之间的关系。 N-gram 例子: SVYDA 其中包含的3-gram为: SVY VYD YDA N-gram 比较分析(人) N-gram 比较分析(褐家鼠) 蛋白质组的Zipf定律分析 Zipf定律: 对数形式的Zipf定律为: Zipf定律分析 (人) 蛋白质序列和自然语言的关系 蛋白质相互作用位点预测 基于CRF的蛋白质相互作用位点预测 蛋白质相互作用位点预测研究内容 蛋白质相互作用位点预测的意义 为什么采用CRF进行相互作用位点预测 CRF模型 实验结果分析 蛋白质相互作用位点预测研究内容 相互作用位点预测的任务 蛋白质相互作用位点预测的意义 识别相互作用的位点可以帮助构建蛋白质复合体的分子结构模型。与此同时,蛋白质相互作用位点的研究对理解生物体活动机制、蛋白质功能研究、疾病诊断和药物研究有重要意义。 为什么采用CRF进行相互作用位点预测 蛋白质一级结构是一个序列 传统的相互作用位点预测方法都是基于分类的方法,忽略了序列相邻的或者空间相邻的残基对于形成相互作用的接口具有相似的倾向。 为了引入相邻残基间的相互影响的信息,采用了基于序列标记的方法(CRF)。 CRF模型 特征定义 实验结果分析:预测示例 实验结果分析:预测示例 实验结果分析:预测示例 远程同源性和折叠检测 远程同源性和折叠检测研究内容 蛋白质可按其结构和进化关系进行分类。目前广泛使用SCOP 数据库定义的分类体系,包含三个主要层次:家族(family)、超家族(superfamily)和折叠(fold)。 依靠蛋白质一级结构将其按照结构和进化关系进行分类。 意义 在比较建模和折叠识别中,都需要识别和待测序列具有同源性的蛋白质作为模板。因此根据序列来探测蛋白质的同源性是蛋白质结构预测中的重要步骤。 蛋白质同源性检测方法示意图 蛋白质向量化方法 N-grams Binary profiles N-nary profiles Binary profiles N-nary profiles 统计方法 统计方法可衡量特征t和类别c之间的相关性。特征t相对于类别c的 值定义如下 潜在语义分析(LSA) 用于自动实现知识提取和表示的理论和方法,通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。 采用LSA的可能性 实验结果分析(远程同源性检测结果) 实验结果分析(折叠检测结果) 远程同源性检测结果(roc50分布) 折叠检测结果(roc50分布) 核酸序列数据库 (cont.) 国际上权威的核酸序列数据库 (1)欧洲分子生物学实验室的EMBL http://www.embl-heidelberg.de (2)美国生物技术信息中心的GenBank /Web/Genbank/index.html (3)日本遗传研究所的DDBJ http://www.ddbj.nig.ac.jp/ 人类基因组数据库 GDB / Ensembl / 其他模式生物基因组数据库 鼠基因组数据库 MGD / 酵母基因组数据库 SGD /Saccharomyces/ 表达序列标记数据库dbEST /dbEST/ 序列标记位点数据库 dbSTS /dbSTS/ 面向基因聚类数据库UniGene /UniGene/ 蛋白质序列数据库 PI

文档评论(0)

sunhao111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档