中文—Syncsort_DMX-h.pptx

下载文档 降价啦

99
0
约1.31千字
约 69页
2017-12-23 发布于江西
举报
版权申诉
保障服务

中文—Syncsort_DMX-h.pptx

1、本文档共69页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中文—Syncsort_DMX-h

;概要;;;在大数据和Hadoop的应用战略;Hadoop带来的挑战;Syncsort’s DMX-h 在大数据生态中的应用;Syncsort DMX-h的用户案例;;;11;;;;;;大型主机和Hadoop如今面临的巨大挑战;数据集成—在大型主机上处理数据为什么就如此困难呢？;大型主机的数据缺乏连接性;;;;MapReduce 的范式;DMH-h 与 MapReduce 的结合范式;Syncsort的开源贡献;MapReduce –与Syncsort结合的前后;Syncsort Confidential and Proprietary - do not copy or distribute;;;与美国主流的银行的大型机连接自如;;用DMX-h在数据仓库中抽取数据;;Oracle PL/SQL;DMX-h Map Reduce;DMX-h Load to HDFS;Results;DMX-h Cluster配置;SAN存储方案; 每月运行的工作任务是以前的100倍 ;;数据转化语言（DTL ）实现需求式的数据抽取需求;DMX/DMX-h: 连通性;序列化文件格式: JSON, Avro;DMX: 任务监控和管理;;DMX-h在Amazon EMR上;DMX-h 和 Cloudera Manager 之间的集成;性能变革;Syncsort Confidential and Proprietary - do not copy or distribute;;目标;测试案例;文件发生改变时在 Pig执行数据抽取的任务表现;文件发生改变时在 java执行数据抽取的任务表现;文件发生改变时在 DMX-h上执行数据抽取的任务表现;Pig聚合Web日志的情况;Java聚合Web日志的情况;DMX-h聚合Web日志的情况;Cluster Specs: 763 node cluster 1 node – job tracker 1 node - name node 1 node – secondary name node 760 data and task nodes (734 remaining at end) Hadoop cluster configuration changes (from defaults): 128 MB HDFS Block size (file.blocksize) 1.5 GB map/ 4GB reduce task JVM memory (mapred.child.java.opts) Maximum 22 map tasks and 4 reduce tasks per node (mapred.tasktracker.map.tasks.maximum mapred.tasktracker.reduce.tasks.maximum);不同的测试任务（1）;不同的测试任务–（2）;分类加速器- Terasort;文件发生改变时的执行情况;性能优势;目标;One Interesting Data Point;68;大数据厂商联盟