- 1、本文档共69页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文—Syncsort_DMX-h
;概要;;;在大数据和Hadoop的应用战略;Hadoop带来的挑战;Syncsort’s DMX-h 在大数据生态中的应用;Syncsort DMX-h的用户案例;;;11;;;;;;大型主机和Hadoop如今面临的巨大挑战;数据集成—在大型主机上处理数据为什么就如此困难呢?;大型主机的数据缺乏连接性;;;;MapReduce 的范式;DMH-h 与 MapReduce 的结合范式;Syncsort的开源贡献;MapReduce –与Syncsort结合的前后;Syncsort Confidential and Proprietary - do not copy or distribute;;;与美国主流的银行的大型机连接自如;;用DMX-h在数据仓库中抽取数据;;Oracle PL/SQL;DMX-h Map Reduce;DMX-h Load to HDFS;Results;DMX-h Cluster配置;SAN存储方案;
每月运行的工作任务是以前的100倍
;;数据转化语言(DTL )实现需求式的数据抽取需求;DMX/DMX-h: 连通性;序列化文件格式: JSON, Avro;DMX: 任务监控和管理;;DMX-h在Amazon EMR上;DMX-h 和 Cloudera Manager 之间的集成;性能变革;Syncsort Confidential and Proprietary - do not copy or distribute;;目标;测试案例;文件发生改变 时在 Pig执行数据抽取的任务表现;文件发生改变 时在 java执行数据抽取的任务表现;文件发生改变 时在 DMX-h上执行数据抽取的任务表现;Pig聚合Web日志的情况;Java聚合Web日志的情况;DMX-h聚合Web日志的情况;Cluster Specs:
763 node cluster
1 node – job tracker
1 node - name node
1 node – secondary name node
760 data and task nodes (734 remaining at end)
Hadoop cluster configuration changes (from defaults):
128 MB HDFS Block size (file.blocksize)
1.5 GB map/ 4GB reduce task JVM memory (mapred.child.java.opts)
Maximum 22 map tasks and 4 reduce tasks per node (mapred.tasktracker.map.tasks.maximum mapred.tasktracker.reduce.tasks.maximum);不同的测试任务(1);不同的测试任务–(2);分类加速器- Terasort;文件发生改变时的执行情况;性能优势;目标;One Interesting Data Point;68;大数据厂商联盟
文档评论(0)