数据科学导论-(14).pptxVIP

  • 5
  • 0
  • 约1.84千字
  • 约 108页
  • 2023-11-20 发布于湖北
  • 举报
;;大数据的4个V;数据规模的指数增长;数据规模的指数增长:举例;数据规模的指数增长;商业数据规模增长;科研数据规模增长;规模很重要!;千级别(thousand)数据样本;百万级别(million)数据样本;十亿级别(billion)数据样本;万亿级别(trillion)数据样本;;我们要如何应对数据增长?;传统分布式数据管理和计算;Google三驾马车;Hadoop的创立;Hadoop的发展壮大;Hadoop系统的目标;Hadoop(及所有并行系统)思路:分而治之;Hadoop的思路:Scaling Out;Hadoop的思路:昂贵?廉价;Hadoop的思路:昂贵?廉价;Hadoop的思路:低成本服务器集群;Hadoop的思路:计算靠近数据;Hadoop技术族;;初步了解一下HDFS;什么是HDFS;一个典型的Hadoop集群;HDSF举例;节点、集群长什么样子?;节点分工;客户端(Client);名称节点(NameNode);数据节点(DataNode);案例分析:Yahoo!的HDFS实践;进一步了解HDFS系统构成;HDFS块;名称节点和数据节点更多细节;名称节点核心数???结构;FsImage文件;为什么要有EditLog?;第二名称节点:SecondaryNameNode;数据冗余和错误恢复;冗余数据保存;数据存储策略;数据错误与恢复——名称节点错;数据错误与恢复——数据节点错;数据错误与恢复——数据出错;HDFS数据读写过程;读数据的过程;写数据的过程;HDFS数据读代码;;HDFS服务启动;HDFS的Web界面;HDFS常用命令;;利用Java API访问HDFS;;面向数据密集型的离线计算;WordCount任务;并行处理WordCount;并行WordCount;从WordCount到MapReduce;从系统的角度看;从WordCount到MapReduce;MapReduce;MapReduce的优势;MapReduce作为编程模型;MapReduce作为编程模型——Map和Reduce函数;Mapper;Reducer;MapReduce编程模型;MapReduce作为并行框架:体系结构;MapReduce体系结构;MapReduce的体系结构;工作流程;概述;整体流程;作业启动;初始化——创建作业(job);作业/任务调度;Map;Shuffle;Reduce;结束;整体流程;;WordCount Mapper;public static class MyReducer extends ReducerText, IntWritable, Text, IntWritable { private IntWritable result = new IntWritable(); public void reduce(Text key, IterableIntWritable values, Context context) throws IOException,InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } result.set(sum); context.write(key, result); } //reduce }/class ;Main函数;课上练习:使用MR建立倒排索引;课上练习:使用MR建立倒排索引;课上练习:使用MR建立倒排索引;课上练习:使用MR建立倒排索引;课上练习:使用MR建立倒排索引;思考1:MapReduce中如何运行循环?;思考2:Map-Reduce如何实现蒙特卡洛法求圆周率;;Spark;Spark与Hadoop的对比;Spark与Hadoop的对比;参数服务器(Parameter Server);TensorFlow;Thanks!

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档