- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
DataStructuresandAlgorithmsforBigDatabases大数据库数据结构与算法
Data Structures and Algorithms forBig Databases
数据收集查询处理过程中有趣的tradeoff
一个3亿行的表创建索引花了20分钟去load the table但是花了10天在这上面创建索引
Bug #9544
“Select queries were slow until I added an index onto the timestamp field...Adding the index really helped our reporting, BUT now the inserts are taking forever.”
Comment on
“They indexed their tables, and indexed them well,And lo, did the queries run quick!But that wasn’t the last of their troubles, to tell–Their insertions, like treacle, ran thick.”
Not from Alice in Wonderland by Lewis Carroll
This tutorial
更好的数据结构意味着减少insert/query的开销(tradeoff)
这些结构在扩展到更大的尺寸的情况下更加有效、在使用内存分层的结构下
LSM TREE
B-TREE
Fractal-tree
我们这里怎么定义big data
不是说 TB PB EB就是big data,我们的定义是:
数据太大 不适合存储在主存中
我们需要数据结构化
“Index””metadata”就意味着这里有潜在的数据结构
这些数据结构也太大了也不适合存在主存中
In this tutorial we study the underlying data structures for managing big data
Tokutek公司介绍
working together on I/O-efficient and cache-oblivious(易失) data structures
tokuDB:
ACID支持;
闭源的MySQL存储引擎
这次totorial举的一些例子就是这个
这次tutorial前提
self contained 自给的
想去教
如果不清楚 提问
应该有数学基础
想要听一下午时间
Topic
I/O model and cache-oblivious analysis.
IO模型和分层cache分析
Write-optimized data structures.
数据写优化
How write-optimized data structures can help file systems.
怎样写数据结构优化帮助文件系统
Block-replacement algorithms.
Indexing strategies.
索引策略
Log-structured merge trees.
日志结构的合并树
Bloom filters
Module 1: I/O Model and Cache-Oblivious Analysis
Story for module
如果想理解数据库中数据结构的性能就需要了解现代IO模型
这里有一个很长的故事来理解内存分层。Many are beautiful. Most have not found practical use.
Two approaches are very powerful
后面的基础
现代磁盘访问的IO模型
计算机如何工作
数据在磁盘和RAM之间传输
Block的传输时间控制着运行时间
目标:
最小的block传输
性能取决于这些参数:block size B, memory size M, data size N
几个例子:
扫描一个队列O(N/B) I/Os
搜索一个B-tree:O(logB N)
搜索一个队列:
对比搜索array和B-tree
IO影响排序
假设下面这几种排序问题:
100M data
10M RAM
1MB 磁盘块
几种排序算法:
每次读10M 排序,写,然后继续100个10M
合并10个10M为100M再跑,重复10次
合并10个100M的一起再一次跑1000M
排序分析
简化的DMA模型
省去CPU开销
假设所有块的访问花销相同
这是一个好的性能模型么?
2KB 或者4KB对于这种模型太小了
Innodb的btree有这种尺寸
顺序读取比随即读取快十倍,不适合这种模型
没有一个最佳的尺寸,因为对不同的操作最佳size不相同(insert/delet
您可能关注的文档
- CMIMS多媒体彩铃业务培训(研究院甘亮).pptx
- CMMS 2013 STARCH 实现更精准的杂志投放媒体策划与优化.pptx
- CompetitiveOverviewPresentationV2Blade Serversv0913中文版V2.pptx
- CiscoTandberg合并进展Aug 4 2010.pptx
- CSDN大数据应用大会——04巨建华基于MongoDB的大规模高频金融交易数据处理.pptx
- Conference Sample Slides April 2007 模板.pptx
- designed by apple in california(临摹版Hiwenping).pptx
- EAP员工协助服务人员的-生涯发展历程-桃园市创新智库-詹翔霖教授.pptx
- encourging the heart探索心.pptx
- Galaxy S III顾客体验指引120531V3 0.pptx
- GIS工程迭置分析.pptx
- GIS的未来发展.pptx
- Healthy food 李科.pptx
- guoweijohn战法Ultimate版.pptx
- higher education in american地下1402黄海宇.pptx
- HCIE RS 考试揭秘 BGP Advance及Internet设计理念v0.3.pptx
文档评论(0)