数据科学导论-(14).pptxVIP

下载本文档

5
0
约1.84千字
约 108页
2023-11-20 发布于湖北
举报

数据科学导论-(14).pptx

;;大数据的4个V;数据规模的指数增长;数据规模的指数增长：举例;数据规模的指数增长;商业数据规模增长;科研数据规模增长;规模很重要！;千级别(thousand)数据样本;百万级别(million)数据样本;十亿级别(billion)数据样本;万亿级别(trillion)数据样本;;我们要如何应对数据增长？;传统分布式数据管理和计算;Google三驾马车;Hadoop的创立;Hadoop的发展壮大;Hadoop系统的目标;Hadoop（及所有并行系统）思路：分而治之;Hadoop的思路：Scaling Out;Hadoop的思路：昂贵?廉价;Hadoop的思路：昂贵?廉价;Hadoop的思路：低成本服务器集群;Hadoop的思路：计算靠近数据;Hadoop技术族;;初步了解一下HDFS;什么是HDFS;一个典型的Hadoop集群;HDSF举例;节点、集群长什么样子？;节点分工;客户端（Client）;名称节点（NameNode）;数据节点（DataNode);案例分析：Yahoo!的HDFS实践;进一步了解HDFS系统构成;HDFS块;名称节点和数据节点更多细节;名称节点核心数???结构;FsImage文件;为什么要有EditLog？;第二名称节点：SecondaryNameNode;数据冗余和错误恢复;冗余数据保存;数据存储策略;数据错误与恢复——名称节点错;数据错误与恢复——数据节点错;数据错误与恢复——数据出错;HDFS数据读写过程;读数据的过程;写数据的过程;HDFS数据读代码;;HDFS服务启动;HDFS的Web界面;HDFS常用命令;;利用Java API访问HDFS;;面向数据密集型的离线计算;WordCount任务;并行处理WordCount;并行WordCount;从WordCount到MapReduce;从系统的角度看;从WordCount到MapReduce;MapReduce;MapReduce的优势;MapReduce作为编程模型;MapReduce作为编程模型——Map和Reduce函数;Mapper;Reducer;MapReduce编程模型;MapReduce作为并行框架：体系结构;MapReduce体系结构;MapReduce的体系结构;工作流程;概述;整体流程;作业启动;初始化——创建作业（job）;作业/任务调度;Map;Shuffle;Reduce;结束;整体流程;;WordCount Mapper;public static class MyReducer extends ReducerText, IntWritable, Text, IntWritable { private IntWritable result = new IntWritable(); public void reduce(Text key, IterableIntWritable values, Context context) throws IOException,InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } result.set(sum); context.write(key, result); } //reduce }/class ;Main函数;课上练习：使用MR建立倒排索引;课上练习：使用MR建立倒排索引;课上练习：使用MR建立倒排索引;课上练习：使用MR建立倒排索引;课上练习：使用MR建立倒排索引;思考1：MapReduce中如何运行循环？;思考2：Map-Reduce如何实现蒙特卡洛法求圆周率;;Spark;Spark与Hadoop的对比;Spark与Hadoop的对比;参数服务器(Parameter Server);TensorFlow;Thanks!

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数据科学导论-(14).pptxVIP