蛋白质序列二级结构搜索ppt.pptVIP

下载本文档

1
0
约2.4千字
约 19页
2018-05-05 发布于福建
举报
版权申诉

蛋白质序列二级结构搜索ppt.ppt

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

蛋白质序列二级结构搜索ppt

蛋白质序列二级结构的搜索 * Abstract 生命科学家使用的生物数据集的查询工具效率低下在基于二级结构的大型数据集上搜索的问题定义了直观的二级结构的查询语言评估查询的算法在Periscope、ORDBMS上实现算法框架：优化查询、评估各种查询估计计划的开销高效、交互式的二级结构查询（大型蛋白质数据集） * 1. Introduction 人类基因组工程：从蛋白质和DNA序列中得出有意义的生物信息、知识（bioinformatics）。确定基因的位置和功能，观察蛋白质之间的反应，蛋白质保持时蛋白质的功能结构。提出问题：与大型生物数据集的分析密切相关存储和查询大型基因、蛋白质数据库 * 1.1 生物背景知识蛋白质的结构组织：四层主结构：氨基酸的线性序列，蛋白质识别二级结构：氨基酸的线性序列折叠成三维结构：?-螺旋（helix）， ?-片（sheet），翻转（loop）三维结构决定蛋白质的功能模式和排列：变革性的关系二级结构折叠的类型、长度、开始位置：功能 * 1.2 科学动力发现新的蛋白质、新的功能：确定蛋白质的功能和类型已有方法搜索已知的蛋白质数据库，和未知的蛋白质相匹配分析相似蛋白质的功能和分类，得出共同点简单基础：定义了蛋白质相似性蛋白质结构和搜索目标的不同，相似性的定义不同：匹配主结构；匹配二级结构（预测生物分子反应）；同样的级别上也有不同：一部分；整个序列 Flexible；efficient BLAST 服务器负载重；查询估计算法的效率交互式的结果：验证、否定一些假设高效的查询估计技术 * 1.3 内容定义了简单、直观的查询语言：基于分区的二级结构查询识别不同的算法，有效地估计查询。由于查询和分区选择，算法选择对查询的执行有突出的影响查询优化框架：基于查询和数据特征选择最优查询计划直方图：精确、空间小在Periscope、ORDBMS上实现：现实数据集、检验算法高效 * 2. 蛋白质格式（format) 依赖于预测工具大部分已知蛋白质的二级结构都是预测度量准确率：60%－70% Predator：单氨基酸序列的残余氢的识别 65%；本机运行蛋白质名，氨基酸长度，主结构，预测的二级结构 * 3. 查询语言和例子 3类原子查询 3类二级结构（h、e、l）；成组出现；按类型和长度表示二级结构序列查询：分区谓词序列 * 4. 查询估计技术 Complex Scan of Protein Table（CSP）普通分区技术 Simple Scan of Segment Table(SSS) 扫描整个分区，利用INLJ得到蛋白质，FSM Index Scan of Segment Table（ISS）扫描索引，INLJ Multiple Index Scans of Segment Table(MISS n) ISS的概化，扫描B树索引N次，2n谓词数，n-way-sort-merge-join,INLJ * 4.1 Complex Scan of Protein Table（CSP）扫描蛋白质表，找到蛋白质，逐个对比蛋白质的二级结构，返回信息 non-deterministic finite state machine(FSM) 二级结构每次输入FSM一个字符，直到输入一个最终（匹配）状态，或确定不匹配每个query对应一个FSM 一个蛋白质可能匹配多次：在蛋白质的每个位置都运行FSM匹配测试 * 4.2 普通分区技术基于分割结构把蛋白质的二级结构分割为相同类型的部分，分别存入分区表，多属性：类型、长度、原始蛋白质id、分区的起始位置 Multi-attribute B+树索引，基于类型和长度 Clustered B+树索引 Index－Nested Loops Join（INLJ），B+树：连接蛋白质表和分区表 id进行排序 Non-gap的QUERY，一次扫描分区表、索引就可以得到结果 ………………（略） * 5.1 Query 优化和估计决定使用哪个plan来估计query 为4个plan的CPU，I/O开销建模(cost function) 两个直方图：基本直方图：决定query谓词的选择复杂直方图：估计结果蛋白质的选择输入:每个query谓词选择、结果选择的估计基本直方图： k*3矩阵（e h l），k是直方图桶的数量 [7][2]代表h 7 7的数量最后一个桶：长度=k的所有分区 k=100:足够小;足够大 248,375蛋白质、10,288,769分区，13‘建立直方图，query 优化器1ms/谓词，99%的分区占1.2KB空间 * 5.2 复杂直方图整个query结果的选择，而不是给定的quer