突击pyspark：数据挖掘的力量倍增器01.pdfVIP

下载本文档

21
0
约3.03千字
约 13页
2018-12-03 发布于湖北
举报

突击pyspark：数据挖掘的力量倍增器01.pdf

突击pyspark：数据挖掘的力量倍增器01

精通PySpark DATAGURU专业数据分析社区精通pyspark 讲师大圣大数据技术框架  大数据技术框架 DATAGURU专业数据分析社区精通pyspark 大圣 626494970  大数据技术栈 DATAGURU专业数据分析社区精通pyspark 大圣 626494970 法律声明【声明】本视频和幻灯片为炼数成金网络课程的教学资料，所有资料只能在课程内使用，不得在课程以外范围散播，违者将可能被追究法律和经济责任。课程详情访问炼数成金培训网站 DATAGURU专业数据分析社区精通pyspark 大圣 626494970 MapReduce框架局限性  处理效率低效 1. Map 结果写磁盘，Reduce 写HDFS ，多个MR 之间通过HDFS 交换数据； 2. 任务调度和启动开销大； 3. 无法充分利用内存  不适合迭代计算（如机器学习、图计算等），交互式处理（数据挖掘）  不适合流式处理（点击日志分析）  MapReduce编程不够灵活，仅支持Map 和Reduce 两种操作 DATAGURU专业数据分析社区精通pyspark 大圣 626494970 Hadoop生态圈中的各种框架  批处理：MapReduce 、Hive 、Pig  流式计算：Storm  交互式计算：Impala、presto  需要一种灵活的框架可同时进行批处理、流式计算、交互式计算 DATAGURU专业数据分析社区精通pyspark 大圣 626494970 Spark的优势  内存计算引擎，提供Cache 机制来支持需要反复迭代计算或者多次数据共享，减少数据读取的 IO 开销  DAG 引擎，减少多次计算之间中间结果写到HDFS 的开销  使用多线程池模型来减少task 启动开稍，shuffle 过程中避免不必要的sort 操作以及减少磁盘IO DATAGURU专业数据分析社区精通pyspark 大圣 626494970 Spark特点易用  提供了丰富的API ，支持Java ，Scala ，Python 和R 四种语言  代码量比MapReduce 少2~5 倍与Hadoop 集成  读写HDFS/Hbase  与YARN 集成 DATAGURU专业数据分析社区精通pyspark 大圣 626494970 SPRAK 2 新特性  SparkSession ：新的上下文入口，统一SQLContext和HiveContext  dataframe与dataset统一，dataframe只是dataset[Row]的类型别名。由于Python是弱类型语言，只能使用DataFrame  Spark SQL 支持sql 2003标准  支持ansi-sql  支持ddl命令  支持子查询：in/not in、exists/not exists  提升catalyst查询优化器的性能

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

突击pyspark：数据挖掘的力量倍增器01.pdfVIP