大数据课程教案.ppt

下载文档 降价啦

2828
0
约6.91千字
约 62页
2016-05-23 发布于湖北
举报
版权申诉
保障服务

大数据课程教案.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

(1)是跨平台，即无论用户使用个人电脑，手机还是平板电脑，所感受到的用户体验是相同或相近的。(2)是门户化，即用户无须启用其他软件就可以完成日常生活中大部分的工作和沟通，对于一些个性化的需求，则可以通过插件的形式来满足，比如新浪微博。(3)是碎片化，即将原来的大型软件进行模块化分解，使之成为独立的功能组建，用户可以按照其需求进行下载。通过碎片化，可以降低用户的总体拥有成本 * 8.3 大数据分析——数据存储比如：传统的关系型数据库在存储学生数据时，必须先定义一张学生信息表，如果以后要增加学生的一些属性，则必须对这张表的模型进行修改。而NoSQL数据库不需要预先定义存储数据时的存储模型。图学生A和学生B的NoSQL存储形式 * 8.3 大数据分析——MapReduce Map-Reduce 系统由廉价而通用的普通服务器构成，通过添加服务器节点的方式可线性扩展处理能力（ScaleOut），在成本和可扩展性上有巨大的优势。MapReduce架构能够满足“先存后处理”的离线批量计算需求。但也存在局限性，其中最大的问题是时延过大，难以适用机器学习迭代、流处理等实时计算任务。 * 不支持分布式文件系统，数据集中存储由高级语言通过调用标准函数传递消息实现并行计算支持分布式文件系统通过Map/Reduce函数实现分布并行运算对文件系统的支持计算节点由开发者指定系统自动选择计算节点，分布式处理对用户透明使用方式用于科学计算多使用专用并行机耦合度高节点失效率低无备份用于互联网服务使用大量廉价PC 耦合度低节点是效率高有容错机制设计目的 MPI MapReduce MapReduce与分布式计算（MPI）比较 * 8.3 大数据分析——MapReduce 利用MapReduce并行计算模型来执行任务，由以下几个部分协调完成。 1.客户端：即用户与计算机交互的接口； 2.Master：负责调度整个任务的执行，一般一个集群中只有一个Master； 3.Worker：任务的真正执行者，执行Map任务的称之为Mapper,执行 Reduce任务的称之为Reducer。执行一个任务时需要多个Worker； 4.分布式文件系统：负责存储输入输出的数据。 * 8.3 大数据分析——MapReduce 具体流程如下： (1) 分割文件：MapReduce数据库将输入文件分割为M个文件块，大小为 16MB-64MB，然后启动集群中各机器进行备份； (2) 指派MapReduce任务：Master程序给空闲的Worker程序指派任务； (3) 读取：被分配到任务的Worker读取文件块作为输入，并生成键值对（key/value），通过自定义函数Map将（key/value）进行处理，得到中间结果（key/value），将其存入缓存区； * 8.3 大数据分析——MapReduce 本地写入：将缓存区中的中间结果（key/value）周期性写入本地磁盘，并将它们在本地磁盘的位置信息发送给Master，然后由Master将位置信息发送给Reduce Worker；远程读写：Worker 得到数据位置信息后，根据位置信息通过远程方式读取本地磁盘上的中间数据，并通过关键字对数据进行合并、排序； (6) 写到输出文件：当Worker遍历所有中间数据之后，将key和相应中间value传递给用户自定义的Reduce函数，结果将被输出到一个最终的输出文件； (7) 返回结果：所有任务完成之后，返回用户程序调用点。 * 8.3 大数据分析——MapReduce 8.3 大数据分析——MapReduce MapReduce数据流程图 * 8.3 大数据分析——MapReduce 比如，利用MapReduce在给定的巨型文本中计算单词出现的次数。如图 * 8.3 大数据分析——MapReduce 第一步：自动对文本进行分割至key,value对； * 8.3 大数据分析——MapReduce 第二步：在分割之后的每一对key,value进行用户定义的Map进行处理，再生成新的key,value对 * 8.3 大数据分析——MapReduce 第三步：对输出的结果集归拢、排序； * 8.3 大数据分析——MapReduce 第四步：通过Reduce操作生成最后结果。 * 8.3 大数据分析未来主要方向：基于深度神经网络的深度学习技术（Deep Learning）数十亿节点的大规模神经网络构建 * 8.3 大数据分析——数据展现目的：以更直观和互动的方式展示分析结果，便于人们理解未来主要方向：可视化技术多与Web技术相结合，以图形或图像的格式呈现，比如SVG一