突击pyspark:数据挖掘的力量倍增器01.pdfVIP

  • 21
  • 0
  • 约3.03千字
  • 约 13页
  • 2018-12-03 发布于湖北
  • 举报

突击pyspark:数据挖掘的力量倍增器01.pdf

突击pyspark:数据挖掘的力量倍增器01

精通PySpark DATAGURU专业数据分析社区 精通pyspark 讲师 大圣 大数据技术框架  大数据技术框架 DATAGURU专业数据分析社区 精通pyspark 大圣 626494970  大数据技术栈 DATAGURU专业数据分析社区 精通pyspark 大圣 626494970 法律声明 【声明】本视频和幻灯片为炼数成金网络课程的教学资料 ,所有资料只能在课程内使用,不得在课程以外范围散 播,违者将可能被追究法律和经济责任。 课程详情访问炼数成金培训网站 DATAGURU专业数据分析社区 精通pyspark 大圣 626494970 MapReduce框架局限性  处理效率低效 1. Map 结果写磁盘,Reduce 写HDFS ,多个MR 之间通过HDFS 交换数据 ; 2. 任务调度和启动开销大 ; 3. 无法充分利用内存  不适合迭代计算(如机器学习 、 图计算等 ),交互式处理(数据挖掘 )  不适合流式处理(点击日志分析 )  MapReduce编程不够灵活,仅支持Map 和Reduce 两种操作 DATAGURU专业数据分析社区 精通pyspark 大圣 626494970 Hadoop生态圈中的各种框架  批处理 :MapReduce 、Hive 、Pig  流式计算 :Storm  交互式计算 :Impala、presto  需要一种灵活的框架可同时进行批处理、流式计算、交互式计算 DATAGURU专业数据分析社区 精通pyspark 大圣 626494970 Spark的优势  内存计算引擎 ,提供Cache 机制来支持需要反复迭代计算或者多次数据共享 ,减少数据读取的 IO 开销  DAG 引擎 ,减少多次计算之间中间结果写到HDFS 的开销  使用多线程池模型来减少task 启动开稍 ,shuffle 过程中避免不必要的sort 操作以及减少磁盘IO DATAGURU专业数据分析社区 精通pyspark 大圣 626494970 Spark特点 易用  提供了丰富的API ,支持Java ,Scala ,Python 和R 四种语言  代码量比MapReduce 少2~5 倍 与Hadoop 集成  读写HDFS/Hbase  与YARN 集成 DATAGURU专业数据分析社区 精通pyspark 大圣 626494970 SPRAK 2 新特性  SparkSession :新的上下文入口,统一SQLContext和HiveContext  dataframe与dataset统一,dataframe只是dataset[Row]的类型别名。由于Python是弱类型语 言,只能使用DataFrame  Spark SQL 支持sql 2003标准  支持ansi-sql  支持ddl命令  支持子查询:in/not in、exists/not exists  提升catalyst查询优化器的性能

文档评论(0)

1亿VIP精品文档

相关文档