- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
目录
• 1.大数据的移动
• 2.大数据分析的技术
– ETL
– 数据存储
– 数据计算
– 数据展现
• 3.体系架构
大数据来了!
2
大数据的移动
数据采集存储 数据分析 数据挖掘
3
Online大数据分析
在线大数据分析引擎的趋势
面向列、数据分片、压缩
数据碎片化
丰富的数据块元数据
Map Reduce
分布式并行计算
Streaming Computing
主存数据库
基于内存计算
Push in Database
4
Online大数据分析
增量ETL 内存计算 支撑BI
列存储 库内计算 JDBC访问
分布式存储 分布式计算 ROLAP
数据抽取并存储 数据计算 数据展现
5
数据抽取并存储
ETL抽取
• 定时增量同步数据
• 细节数据或轻度汇总
• 压缩, 索引,标签
数据存储
• 列存储
• 分布式文件存储系统-ZFS
• 面向主题的数据集市
6
列存储与行存储的比对
• 数据是按行存储的
• 没有索引的查询使用大量I/O
• 建立索引和物化视图需要花费大
量时间和资源
• 面对查询的需求,数据库必须被
大量膨胀才能满足性能要求
• 数据按列存储 – 每一列单独存放
• 数据即是索引
• 只访问查询涉及的列 – 大量降低系
统IO
• 每一列由一个线索来处理 – 查询的
并发处理
• 数据类型一致,数据特征相似 – 方
便压缩
7
数据抽取并存储
列存储
1. 压缩算法
2. Partial I/O
3. 批量拷贝 Select Order.S
您可能关注的文档
- Spark概述与编程模型.pdf
- Spark最佳实践教程.pdf
- sqoop配置与测试方法.pdf
- Tomcat架构及运维篇.pdf
- WordCount示例程序测试方法.docx
- 阿里巴巴开发手册1.4.pdf
- 阿里云ESC申请过程.pdf
- 编译Hadoop安装教程.pdf
- 编译Spark源码编译安装教程.pdf
- 2026年毛概期末考试试题库附参考答案(研优卷).docx
- 2025年鸡西市麻山区公益性岗位招聘8人(公共基础知识)测试题附答案.docx
- 杭州之江湾股权投资基金管理有限公司招聘参考题库附答案.docx
- 2026江苏辖区农村商业银行常熟农商银行校园招聘200人(公共基础知识)测试题附答案.docx
- 2025年中国石油新疆油田分公司秋季高校毕业生招聘360人(公共基础知识)综合能力测试题附答案.docx
- 2023年攀枝花市直属机关遴选公务员笔试真题汇编附答案解析(夺冠).docx
- 2026广发银行太原分行校园招聘(公共基础知识)测试题附答案.docx
- 2025四川成都医学院招聘事业编制辅导员10人(公共基础知识)测试题附答案.docx
- 2026年毛概期末考试试题库必考题.docx
- 2025年合肥市某国有企业2025年岗位外包招聘(公共基础知识)测试题附答案.docx
- 2026年重庆青年职业技术学院单招(计算机)测试模拟题库附答案.docx
原创力文档


文档评论(0)