- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
本实验室的人工智能技术和自然语言处理技术在生物信息学中的应用 采用Ngram寻找蛋白白质序列和自然语言的相似性 采用条件随即域(CRF)解决蛋白质相互作用位点预测问题。 采用N-gram, binary profile和N-nary profile模型结合支持向量(SVM)机解决蛋白质远程同源性和折叠识别的问题。 采用潜在语义分析(LSA)提高远程同源性检测效果。 蛋白质序列和自然语言的相似性 蛋白质序列和自然语言的相似性 Dong et al. N-gram Statistics and Linguistic Featrues Analysis of Whole Genome Protein Sequences. Journal of Harbin Institute of Technology. 2004 在此论文中,探索了蛋白质和自然语言之间的关系。 N-gram 例子: SVYDA 其中包含的3-gram为: SVY VYD YDA N-gram 比较分析(人) N-gram 比较分析(褐家鼠) 蛋白质组的Zipf定律分析 Zipf定律: 对数形式的Zipf定律为: Zipf定律分析 (人) 蛋白质序列和自然语言的关系 蛋白质相互作用位点预测 基于CRF的蛋白质相互作用位点预测 蛋白质相互作用位点预测研究内容 蛋白质相互作用位点预测的意义 为什么采用CRF进行相互作用位点预测 CRF模型 实验结果分析 蛋白质相互作用位点预测研究内容 相互作用位点预测的任务 A R N D C Q E G H I L K M F P S T W Y V ... 0 1 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0… 蛋白质相互作用位点预测的意义 识别相互作用的位点可以帮助构建蛋白质复合体的分子结构模型。与此同时,蛋白质相互作用位点的研究对理解生物体活动机制、蛋白质功能研究、疾病诊断和药物研究有重要意义。 为什么采用CRF进行相互作用位点预测 蛋白质一级结构是一个序列 传统的相互作用位点预测方法都是基于分类的方法,忽略了序列相邻的或者空间相邻的残基对于形成相互作用的接口具有相似的倾向。 为了引入相邻残基间的相互影响的信息,采用了基于序列标记的方法(CRF)。 CRF模型 yi-1 yi yi+1 X (x1,x2,…,xi-1,xi,xi+1,…xn) 链状条件随机域模型 转移特征 状态特征 特征定义 转移特征 序列谱状态特征 残基的溶剂可接 触面积状态特征 残基的保守性状 态特征 实验结果分析:预测示例 SMC1HD:SCC1-C复合体 CRF预测结果 支持向量机预测结果 正确位点 实验结果分析:预测示例 Ribosomal subunit 30S复合体 CRF预测结果 支持向量机预测结果 正确位点 实验结果分析:预测示例 Sreptococcal pyrogenic enterotoxin C(SpeC)复合体 CRF预测结果 支持向量机预测结果 正确位点 远程同源性和折叠检测 远程同源性和折叠检测研究内容 蛋白质可按其结构和进化关系进行分类。目前广泛使用SCOP 数据库定义的分类体系,包含三个主要层次:家族(family)、超家族(superfamily)和折叠(fold)。 依靠蛋白质一级结构将其按照结构和进化关系进行分类。 意义 在比较建模和折叠识别中,都需要识别和待测序列具有同源性的蛋白质作为模板。因此根据序列来探测蛋白质的同源性是蛋白质结构预测中的重要步骤。 蛋白质同源性检测方法示意图 蛋白质向量化方法 N-grams Binary profiles N-nary profiles Binary profiles * 八十年代末期,林华安博士认识到将计算机科学与生物学结合起来的重要意义,开始留意要为这一领域构思一个合适的名称。起初,考虑到与将要支持他主办一系列生物信息学会议的佛罗里达州立大学超型计算机计算研究所的关系,他使用的是“CompBio”;之后,又将其更改为兼具法国风情的“bioinformatique”,看起来似乎有些古怪。因此不久,他便进一步把它更改为“bio-informatics(或bio/informatics)”。但由于当时的电子邮件系统与今日不同,该名称中的-或/符号经常会引起许多系统问题,于是林博士将其去除,今天我们所看到的“bioinformatics”就正式诞生了,林博士也因此赢得了“生物信息学之父”的美誉。 林华安 * 基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。 根据进化树不仅可以研究从单
您可能关注的文档
最近下载
- 中重度痤疮的治疗方案——基于中国痤疮治疗指南(2023修订版).docx VIP
- 2024-2030年中国随身MIFI市场发展趋势与前景动态分析研究报告.docx
- GB50660-2024大中型火力发电厂设计规范.pptx VIP
- 生物物理学课件集锦.ppt VIP
- 2022成都东部集团有限公司招聘试题及答案解析.docx VIP
- DB22T 5016-2019 市政工程资料管理标准.docx VIP
- 下料工考试题库及答案.doc VIP
- 招投标培训(完整版)课件.pptx VIP
- 2024广西高质量共建“一带一路”谱写人类命运共同体新篇章公需课答案.docx VIP
- 全网最齐全的水电定位注意事项.docx VIP
文档评论(0)