云计算与数据挖掘研究报告.ppt

下载文档 降价啦

4
0
约7.35千字
约 116页
2018-04-07 发布于天津
举报
版权申诉
保障服务

云计算与数据挖掘研究报告.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

教学课件课件PPT医学培训课件教育资源教材讲义

中移动大云平台Big Cloud BC-PDM分布式数据挖掘系统　　2007年3月，确定了大云(Big Cloud)计划，即中国移动研究院为打造中国移动云计算基础设施而实施的关键技术研究及原型系统开发计划。　　2007年7月，利用闲置的15台PC服务器，基于开源软件搭建了海量数据处理试验平台，并成功运行搜索引擎软件。　　2008年10月，建立256节点的大规模运算实验室，并运行数据挖掘工具和相关应用。　　2009年9月，Big Cloud 0.5版本在中国移动研究院内部发布试用。　　2009年12月，试验平台进一步扩容，达到1000台服务器、5000个CPU、3000TB的存储规模。 “大云”研发大事记并行数据挖掘工具(BC-PDM)是一套高性能、低成本、高可靠性、高可伸缩性的海量数据处理、分析和挖掘系统。该工具提供海量数据并行ETL和并行挖掘能力，支持企业的BI应用和精准营销;提供业务逻辑复杂的SQL 能力，支持海量数据的清洗、转换、关联、汇总等操作，支持生成企业报表、KPI、挖掘等应用;提供基于Web的SaaS服务模式，降低企业IT系统投资。大云数据挖掘系统(BC-PDM) 登录后界面工作流画布（Knowledge Flow Layout） job监控框(Job monitor) 数据查看与管理预览数据创建工作流配置工作流为什么需要MapReduce？ Google MapReduce 架构设计师 Jeffrey Dean Jeffery Dean设计一个新的抽象模型，使我们只要执行的简单计算，而将并行化、容错、数据分布、负载均衡的等杂乱细节放在一个库里，使并行编程时不必关心它们这就是MapReduce 一个软件架构，是一种处理海量数据的并行编程模式用于大规模数据集（通常大于1TB）的并行运算 MapReduce实现了Map和Reduce两个功能 Map把一个函数应用于集合中的所有成员，然后返回一个基于这个处理的结果集 Reduce对结果集进行分类和归纳 Map()和 Reduce() 两个函数可能会并行运行，即使不是在同一的系统的同一时刻 MapReduce MapReduce示例：单词计数案例：单词记数问题(Word Count) 给定一个巨大的文本（如1TB），如何计算单词出现的数目？ MapReduce示例：单词计数使用MapReduce求解该问题定义Map和Reduce函数 MapReduce示例：单词计数使用MapReduce求解该问题 Step 1: 自动对文本进行分割，形成初始的key,value对 MapReduce示例：单词计数使用MapReduce求解该问题 Step 2:在分割之后的每一对key,value进行用户定义的Map进行处理，再生成新的key,value对 MapReduce示例：单词计数使用MapReduce求解该问题 Step 3:对输出的结果集归拢、排序(系统自动完成） MapReduce示例：单词计数使用MapReduce求解该问题 Step 4:通过Reduce操作生成最后结果 Google MapReduce执行流程源文件：GFS Map处理结果：本地存储 Reduce处理结果：GFS 日志：GFS 文件存储位置思考 Google MapReduce计算架构有什么问题？ Worker故障 Master 周期性的ping每个worker。如果master在一个确定的时间段内没有收到worker返回的信息，那么它将把这个worker标记成失效重新执行该节点上已经执行或尚未执行的Map任务重新执行该节点上未完成的Reduce任务，已完成的不再执行 Master故障定期写入检查点数据从检查点恢复 MapReduce的容错 WHY？任务备份机制慢的workers 会严重地拖延整个执行完成的时间由于其他的任务占用了资源磁盘损坏解决方案: 在临近结束的时候，启动多个进程来执行尚未完成的任务谁先完成，就算谁可以十分显著地提高执行效率 MapReduce的优化本地处理 Master 调度策略: 向GFS询问获得输入文件blocks副本的位置信息 Map tasks 的输入数据通常按 64MB来划分 (GFS block 大小) 按照blocks所在的机器或机器所在机架的范围进行调度效果绝大部分机器从本地读取文件作为输入，节省大量带宽 MapReduce的优化跳过有问题的记录一些特定的输入数据常导致Map/Reduce无法运行最好的解决方法是调试或者修改不一定可行~ 可能需要第三方库或源码在每个worker里运行一个信号处理程序，捕获map或reduce任务崩溃时发出的信号，一旦捕获，就会向mas