数据分析428资料讲解.pptVIP

下载本文档

1
0
约2.26千字
约 27页
2020-06-15 发布于天津
举报
版权申诉

数据分析428资料讲解.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大规模数据分析方法对比A Comparison of Approaches to Large-Scale Data Analysis;作者1：Andrew Pavlo ，Brown University 1 MapReduce and parallel DBMSs: friends or foes? 朋友还是冤家 2 A comparison of approaches to large-scale data analysis 3 H-store: a high-performance, distributed main memory transaction processing system 4 The NMI build test laboratory: continuous integration framework for distributed computing software 5 Smoother transitions between breadth-first-spanning-tree-based drawings 主要做Hadoop(Mapreduce)和并行数据库管理系统比较，用于大规模数据集分析。 ;作者2 Erik Paulson， University of Wisconsin 1 MapReduce and parallel DBMSs: friends or foes? 2 A comparison of approaches to large-scale data analysis 3 Clustera: an integrated computation and data management system 和第一作者一样，主要做Hadoop(Mapreduce)和并行数据库管理系统比较，用于大规模数据集分析。 ;摘要;;1引言;2 两种大规模数据分析方法 ;2.1Mapreduce;2.2并行数据库管理系统;3 架构元素 Architecture elements;3.3编程模型关系型数据库系统，程序用高级语言写，容易读写和修改。 MR 使用低级语言执行记录集操作，引入现象过程语言编程。为减轻执行重复任务，把高级语言迁移到当前接口，如数据仓库工具Hive和分析大规模数据平台Pig。 3.4数据分发Data distribution 并行数据库系统使用并行查询优化器平衡计算工作量，最小化数据在网络中的传输。除了最初决定把Map实例安排在哪个节点，MR程序员需要手动执行其他的任务。;3.5执行策略 MR处理Map和Reduce job之间传输有一个很严重的性能问题。Reduce阶段，不可避免的，两个或更多的reduce实例通过文件传输协议pull同时从一个map节点读取输入文件，减慢有效的磁盘传输速率. 并行数据库系统不分块文件，采用推送方式push代替pull。 3.6灵活性由于SQL表达能力不足，新的应用程序框架开始扭转这种局面，通过利用新的编程语言功能来实现对象-关系映射模式。由于数据库管理系统的健壮性，使开发者减轻写复杂SQL的负担。虽然没有MR完全的一般性，但数据库管理系统现在提供的支持用户自定义函数，存储过程，在SQL中聚合等，也提高了灵活性。;3.7容错性 MR更善于处理执行MR计算过程中节点失败。如果一个节点失败，MR调度器会在另外一个节点上重启这个任务。如果一个节点失败，数据库管理系统整个查询必须完全重新启动。;4 基准的性能 Performance benchmarks;4.1基准环境Benchmark environment;4.1.2节点配置三个系统都部署在100台机子的集群，每个节点CPU 2.4GHz intel core 2 操作系统64位red hat enterprise linux 5 内存4G 硬盘 2个250GSATA-I. 交换机 128Gbps 50个节点一台交换机。 4.1.3基准执行每个系统执行基准任务三次取平均，先在一个节点上执行每个任务，然后在不同的集群数量上执行不同的数据大小。还测量了每个系统加载数据的时间。由于MR每个reduce输出一个文件，而数据库管理系统总共输出一个文件，在HDFS中执行一个额外的reduce函数来结合成一个文件再输出。 ;4.2原始的MR任务The original MR task;4.2.1数据加载加载535M/node和1T/node如下图，对于DBMS-X，下半段是执行并行加载命令时间，上半段是重组过程reorganization process。;4.2.2任务执行三个系统的性能结果如下。Hadoop上半段是MR job把输出文件结合成一个的时间。下半段是执行任务时间。;