基于大数据的统计分析方法和工具.pptVIP

下载本文档

53
0
约9.26千字
约 39页
2019-09-30 发布于安徽
举报
版权申诉

基于大数据的统计分析方法和工具.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据统计分析案例 Infobright InfiniDB MonetDB Vertica 列存储 AggressiveCompression（CPU/IO平衡） shared-nothing,grid-based（并行查询）多备份（高可用性）黄金时代（行式到列式）黄金时代大数据统计分析案例 select avg( score ) from example where class =‘Junior’ and grade = A group by gender; 黄金时代（行式到列式）黄金时代大数据统计分析案例黄金时代（行式到列式）查询速度（ms）存储能力（G）黄金时代大数据统计分析案例云端时代 Aerospike/Redis LevelDB/RocksDB Bitmap服务，高吞吐、高随机查询下下谁更合适？云端时代大数据统计分析案例列式数据库（count/Group by） HDFS/Kafka等文件存储（scan）搜索引擎（文本随机查询） Redis/LMDB/RocksDB等KV数据库传统关系型数据库云端时代云端时代大数据统计分析案例云端时代云端时代大数据统计分析案例小结目录概论统计分析方法和技术原理主流工具案例总结总结不同的时期不同的选型每种数据库都有它特定的场景---读写优化的平衡数据库和计算紧密捆绑在一起---存储和计算的平衡自主创新和产品使用珠联璧合---底层研究和应用能力的平衡知识回顾Knowledge Review 结构化数据：简单的建立一个对应的表就可以了。非结构化数据：像图片、声音、视频等等。这类信息我们通常无法直接知道他的内容，数据库也只能将它保存在一个BLOB字段中，对以后检索非常麻烦。一般的做法是，建立一个包含三个字段的表（编号 number、内容描述 varchar(1024)、内容 blob）。引用通过编号，检索通过内容描述。现在还有很多非结构化数据的处理工具，市面上常见的内容管理器就是其中的一种。 * 关于大数据的使用差别，其实很多时候我们都在强调一种对于数据的分析方式的差异，在以前，记录一个东西，通常会使用表格方式去进行记录，对一个行为习惯进行统计的时候，就会对这个表格进行排序、叠加或者存储等等的东西，但是在大数据之中有一个概念，那就是关联性。这种关联性有时候很能体现大数据的价值。以人为例，当我们去看一个东西的时候，比如看见一个物品，这个时候如果能够对它进行量化，通常是记录物品大小、形状、重量。但是在大数据观念领域中，关联性思维会让我们在看到这个杯子的时候，不会想这个杯子的重量，而是关联到这个杯子它适合喝茶还是喝咖啡，这就是关联性比较直观的一个体现。实际上这种关联性并不是通过逻辑叠加出来的，而是需要数据分析。 * 时至今日，互联网上有数以亿计的用户。大数据与云计算已经成为很多主要的互联网应用都在使用或是准备使用的技术，，数据也变得越来越复杂，而且有很多非结构化的数据存在，这是很难通过传统的关系型数据库管理系统来处理的。NoSQL技术则能比较好地解决这个问题，它主要用于非结构化的大数据与云计算上。从这个角度来看，NoSQL是一种全新的数据库思维方式。很多新数据都是非结构化或是半结构化的，因此开发者还需要能够高效存储这种数据的数据库。但遗憾的是，关系型数据库所使用的定义严格、基于模式的方式是无法快速容纳新的数据类型的，对于非结构化或是半结构化的数据更是无能为力。 NoSQL提供的数据模型则能很好地满足这种需求。 NoSQL数据库从一开始就是分布式、水平扩展的，因此非常适合于互联网应用分布式的特性。关系型数据库需要在添加数据前先定义好模式。 * 每种数据库依据其不同的功能目标，选择了不同的模型。 * 数据迁移工作和传统数据库不同大，数据方案的存储是基于分布式文件系统（DFS）构建的，目前可以使用Apache Sqoop来进行关系型数据库和Hadoop之间的海量数据传输，Sqoop可以将可以将标准的关系型数据库中的数据导进到大数据（Hadoop）方案的HDFS中，它支持批量的导入导出。访问接口改造和传统数据库利用JDBC、JPA等标准的访问方式不同，大数据（Hadoop）方案是基于Map-Reduce API来进行访问的。Map-Reduce的编程需要一定的经验而且效率也不高，目前Apache提供了Pig Latin来改善此种状况，它在 MapReduce 的基础上创建了更简单的过程语言抽象，为 Hadoop 应用程序提供了一种更加接近结构化查询语言 (SQL) 的接口，当然其语法和SQL还是具有一些的差异，需要改造原有的数据接口代码。半结构化/非结构化数据存储传统数据库会利用CLOB或BLOB格式