- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大规模数据分析方法对比A Comparison of Approaches to Large-Scale Data Analysis;作者1:Andrew Pavlo ,Brown University
1 MapReduce and parallel DBMSs: friends or foes? 朋友还是冤家
2 A comparison of approaches to large-scale data analysis
3 H-store: a high-performance, distributed main memory transaction processing system
4 The NMI build test laboratory: continuous integration framework for distributed computing software
5 Smoother transitions between breadth-first-spanning-tree-based drawings
主要做Hadoop(Mapreduce)和并行数据库管理系统比较,
用于大规模数据集分析。
;作者2 Erik Paulson, University of Wisconsin
1 MapReduce and parallel DBMSs: friends or foes?
2 A comparison of approaches to large-scale data analysis
3 Clustera: an integrated computation and data management system
和第一作者一样,主要做Hadoop(Mapreduce)和并行数据库管理系统比较,用于大规模数据集分析。
;摘要;;1引言;2 两种大规模数据分析方法 ;2.1Mapreduce;2.2并行数据库管理系统;3 架构元素 Architecture elements;3.3编程模型
关系型数据库系统,程序用高级语言写,容易读写和修改。
MR 使用低级语言执行记录集操作,引入现象过程语言编程。为减轻执行重复任务,把高级语言迁移到当前接口,如数据仓库工具Hive和分析大规模数据平台Pig。
3.4数据分发Data distribution
并行数据库系统 使用并行查询优化器平衡计算工作量,最小化数据在网络中的传输。
除了最初决定把Map实例安排在哪个节点,MR程序员需要手动执行其他的任务。;3.5执行策略
MR处理Map和Reduce job之间传输有一个很严重的性能问题。Reduce阶段,不可避免的,两个或更多的reduce实例通过文件传输协议pull同时从一个map节点读取输入文件,减慢有效的磁盘传输速率.
并行数据库系统不分块文件,采用推送方式push代替pull。
3.6灵活性
由于SQL表达能力不足,新的应用程序框架开始扭转这种局面,通过利用新的编程语言功能来实现对象-关系映射模式。由于数据库管理系统的健壮性,使开发者减轻写复杂SQL的负担。虽然没有MR完全的一般性,但数据库管理系统现在提供的支持用户自定义函数,存储过程,在SQL中聚合等,也提高了灵活性。;3.7容错性
MR更善于处理执行MR计算过程中节点失败。如果一个节点失败,MR调度器会在另外一个节点上重启这个任务。
如果一个节点失败,数据库管理系统整个查询必须完全重新启动。;4 基准的性能 Performance benchmarks;4.1基准环境Benchmark environment;4.1.2节点配置
三个系统都部署在100台机子的集群,每个节点CPU 2.4GHz intel core 2 操作系统64位red hat enterprise linux 5 内存4G 硬盘 2个250GSATA-I. 交换机 128Gbps 50个节点一台交换机。
4.1.3基准执行
每个系统执行基准任务三次取平均,先在一个节点上执行每个任务,然后在不同的集群数量上执行不同的数据大小。还测量了每个系统加载数据的时间。由于MR每个reduce输出一个文件,而数据库管理系统总共输出一个文件,在HDFS中执行一个额外的reduce函数来结合成一个文件再输出。 ;4.2原始的MR任务The original MR task;4.2.1数据加载
加载535M/node和1T/node如下图,对于DBMS-X,下半段是执行并行加载命令时间,上半段是重组过程reorganization process。;4.2.2任务执行
三个系统的性能结果如下。Hadoop上半段是MR job把输出文件结合成一个的时间。下半段是执行任务时间。;
文档评论(0)