- 1、本文档共19页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
蛋白质序列二级结构搜索ppt
蛋白质序列二级结构的搜索 * Abstract 生命科学家使用的生物数据集的查询工具效率低下 在基于二级结构的大型数据集上搜索的问题 定义了直观的二级结构的查询语言 评估查询的算法 在Periscope、ORDBMS上实现算法 框架:优化查询、评估各种查询估计计划的开销 高效、交互式的二级结构查询(大型蛋白质数据集) * 1. Introduction 人类基因组工程: 从蛋白质和DNA序列中得出有意义的生物信息、知识(bioinformatics)。 确定基因的位置和功能,观察蛋白质之间的反应,蛋白质保持时蛋白质的功能结构。 提出问题: 与大型生物数据集的分析密切相关 存储和查询大型基因、蛋白质数据库 * 1.1 生物背景知识 蛋白质的结构组织:四层 主结构:氨基酸的线性序列,蛋白质识别 二级结构:氨基酸的线性序列折叠成三维结构:?-螺旋(helix), ?-片(sheet),翻转(loop) 三维结构决定蛋白质的功能 模式和排列:变革性的关系 二级结构折叠的类型、长度、开始位置:功能 * 1.2 科学动力 发现新的蛋白质、新的功能:确定蛋白质的功能和类型 已有方法 搜索已知的蛋白质数据库,和未知的蛋白质相匹配 分析相似蛋白质的功能和分类,得出共同点 简单基础:定义了蛋白质相似性 蛋白质结构和搜索目标的不同,相似性的定义不同:匹配主结构;匹配二级结构(预测生物分子反应); 同样的级别上也有不同:一部分;整个序列 Flexible;efficient BLAST 服务器负载重;查询估计算法的效率 交互式的结果:验证、否定一些假设 高效的查询估计技术 * 1.3 内容 定义了简单、直观的查询语言:基于分区的二级结构查询 识别不同的算法,有效地估计查询。 由于查询和分区选择,算法选择对查询的执行有突出的影响 查询优化框架: 基于查询和数据特征选择最优查询计划 直方图:精确、空间小 在Periscope、ORDBMS上实现: 现实数据集、检验算法 高效 * 2. 蛋白质格式(format) 依赖于预测工具 大部分已知蛋白质的二级结构都是预测度量 准确率:60%-70% Predator:单氨基酸序列的残余氢的识别 65%;本机运行 蛋白质名,氨基酸长度,主结构,预测的二级结构 * 3. 查询语言和例子 3类原子查询 3类二级结构(h、e、l);成组出现;按类型和长度表示二级结构序列 查询:分区谓词序列 * 4. 查询估计技术 Complex Scan of Protein Table(CSP) 普通分区技术 Simple Scan of Segment Table(SSS) 扫描整个分区,利用INLJ得到蛋白质,FSM Index Scan of Segment Table(ISS) 扫描索引,INLJ Multiple Index Scans of Segment Table(MISS n) ISS的概化,扫描B树索引N次,2n谓词数,n-way-sort-merge-join,INLJ * 4.1 Complex Scan of Protein Table(CSP) 扫描蛋白质表,找到蛋白质,逐个对比蛋白质的二级结构,返回信息 non-deterministic finite state machine(FSM) 二级结构每次输入FSM一个字符,直到输入一个最终(匹配)状态,或确定不匹配 每个query对应一个FSM 一个蛋白质可能匹配多次:在蛋白质的每个位置都运行FSM匹配测试 * 4.2 普通分区技术 基于分割结构 把蛋白质的二级结构分割为相同类型的部分,分别存入分区表,多属性:类型、长度、原始蛋白质id、分区的起始位置 Multi-attribute B+树索引,基于类型和长度 Clustered B+树索引 Index-Nested Loops Join(INLJ),B+树:连接蛋白质表和分区表 id进行排序 Non-gap的QUERY,一次扫描分区表、索引就可以得到结果 ………………(略) * 5.1 Query 优化和估计 决定使用哪个plan来估计query 为4个plan的CPU,I/O开销建模(cost function) 两个直方图: 基本直方图:决定query谓词的选择 复杂直方图:估计结果蛋白质的选择 输入:每个query谓词选择、结果选择的估计 基本直方图: k*3矩阵(e h l),k是直方图桶的数量 [7][2]代表h 7 7的数量 最后一个桶:长度=k的所有分区 k=100:足够小;足够大 248,375蛋白质、10,288,769分区,13‘建立直方图,query 优化器1ms/谓词,99%的分区占1.2KB空间 * 5.2 复杂直方图 整个query结果的选择,而不是给定的quer
您可能关注的文档
最近下载
- 中心医院“十五五”发展规划(完整版).docx VIP
- 长沙市工贸企业安全生产管理基础资料 (指导手册).doc VIP
- 贵州省安全生产条例解读课件.ppt VIP
- 公路工程安全管理制度.docx VIP
- ISO 927-2009香辛料和调味品—杂质和外来物含量的测定.doc
- 压缩空气管径及压力损失计算表(管径、压损计算).xls VIP
- 2024年质量员-土建方向-岗位技能(质量员)证考试题库.pdf VIP
- 《无人机航拍技术》课件—06无人机拍摄实例分析.pptx VIP
- YB∕T 《电动汽车驱动电机用冷轧无底层取向电工钢带(片)》.pdf
- 《无人机航拍技术》课件—05无人机飞行的法规.pptx VIP
文档评论(0)