DataStructuresandAlgorithmsforBigDatabases大数据库数据结构与算法.pptxVIP

下载本文档

2
0
约2.67千字
约 29页
2017-05-28 发布于重庆
举报
版权申诉

DataStructuresandAlgorithmsforBigDatabases大数据库数据结构与算法.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

DataStructuresandAlgorithmsforBigDatabases大数据库数据结构与算法

Data Structures and Algorithms forBig Databases 数据收集查询处理过程中有趣的tradeoff 一个3亿行的表创建索引花了20分钟去load the table但是花了10天在这上面创建索引 Bug #9544 “Select queries were slow until I added an index onto the timestamp field...Adding the index really helped our reporting, BUT now the inserts are taking forever.” Comment on “They indexed their tables, and indexed them well,And lo, did the queries run quick!But that wasn’t the last of their troubles, to tell–Their insertions, like treacle, ran thick.” Not from Alice in Wonderland by Lewis Carroll This tutorial 更好的数据结构意味着减少insert/query的开销(tradeoff) 这些结构在扩展到更大的尺寸的情况下更加有效、在使用内存分层的结构下 LSM TREE B-TREE Fractal-tree 我们这里怎么定义big data 不是说 TB PB EB就是big data，我们的定义是：数据太大不适合存储在主存中我们需要数据结构化 “Index””metadata”就意味着这里有潜在的数据结构这些数据结构也太大了也不适合存在主存中 In this tutorial we study the underlying data structures for managing big data Tokutek公司介绍 working together on I/O-efficient and cache-oblivious(易失) data structures tokuDB： ACID支持；闭源的MySQL存储引擎这次totorial举的一些例子就是这个这次tutorial前提 self contained 自给的想去教如果不清楚提问应该有数学基础想要听一下午时间 Topic I/O model and cache-oblivious analysis. IO模型和分层cache分析 Write-optimized data structures. 数据写优化 How write-optimized data structures can help file systems. 怎样写数据结构优化帮助文件系统 Block-replacement algorithms. Indexing strategies. 索引策略 Log-structured merge trees. 日志结构的合并树 Bloom filters Module 1: I/O Model and Cache-Oblivious Analysis Story for module 如果想理解数据库中数据结构的性能就需要了解现代IO模型这里有一个很长的故事来理解内存分层。Many are beautiful. Most have not found practical use. Two approaches are very powerful 后面的基础现代磁盘访问的IO模型计算机如何工作数据在磁盘和RAM之间传输 Block的传输时间控制着运行时间目标：最小的block传输性能取决于这些参数：block size B, memory size M, data size N 几个例子：扫描一个队列O(N/B) I/Os 搜索一个B-tree:O(logB N) 搜索一个队列: 对比搜索array和B-tree IO影响排序假设下面这几种排序问题： 100M data 10M RAM 1MB 磁盘块几种排序算法：每次读10M 排序，写，然后继续100个10M 合并10个10M为100M再跑，重复10次合并10个100M的一起再一次跑1000M 排序分析简化的DMA模型省去CPU开销假设所有块的访问花销相同这是一个好的性能模型么？ 2KB 或者4KB对于这种模型太小了 Innodb的btree有这种尺寸顺序读取比随即读取快十倍，不适合这种模型没有一个最佳的尺寸，因为对不同的操作最佳size不相同(insert/delet