大数据与数据挖掘及云平台应用开发高级研修班.docVIP

大数据与数据挖掘及云平台应用开发高级研修班.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据与数据挖掘及云平台应用开发高级研修班

“大数据与数据挖掘及云平台应用开发高级研修班” 为进一步推动产业及高校大数据人才培养工作,培养国内数据分析和数据挖掘方面的骨干力量,由北京国培鼎力教育科技有限公司承办的“大数据与数据挖掘及云平台应用开发高级研修班”于2014年10月24日—27日在西安举行,我院软件工程系的纪四维老师参加了此次培训班。 培训内容: 第 1 部 分 数据分析概述 数据的演变 传统数据库面临的挑战 大数据处理的机遇 业务分析经典案例:啤酒与尿布 IT分析经典场景:数据中心容量规划 IBM Watson——基于大数据的认知计算 大数据的人才需求:大数据方案 ≠ Hadoop 大数据的人才需求:大数据总体架构 大数据的人才培养:从云计算起源说起 大数据的人才培养:理论结合实践 海量数据处理需求 存储系统的关键因素 存储系统的类型 大数据存储系统 CAP定理 互联网行业大数据存储系统参考架构 Google GFS Facebook Haystack Amazon Dynamo Google BigTable 第 2 部 分 Hadoop概述 数据存储与分析 数据的并行访问 Hadoop的核心组件 Hadoop的基本特征 Hadoop的生态圈 Hadoop与大数据 Hadoop与关系型数据库 Hadoop发展简史 MapReduce 什么是MapReduce 实践:基于Eclipse的Hadoop开发环境搭建 实践:使用MapReduce编写北京市小汽车摇号中签姓名统计程序 实践:编写MapReduce程序的单元测试程序 实践:编写MapReduce程序的驱动程序 实践:在单机环境下运行MapReduce程序 实践:使用Ant脚本部署MapReduce程序并在分布式环境下运行 实践:使用Hadoop Web控制台查看作业输出 使用MapReduce进行数据分析 MapReduce横向扩展 MapReduce数据流 Combine函数 非Java语言支持 HDFS 什么是HDFS HDFS的优势与劣势 HDFS的数据块 Namenode与Datanode Hadoop客户端 Namenode的高可用 Hadoop支持的各种文件系统 Hadoop支持的各种接口 文件读取的数据流 文件写入的数据流 网络拓扑与hadoop CAP定理在Hadoop中的展现:一致性模型与应用注意事项 distcp并行复制 集群的均衡 文件的归档 Pig Latin及其使用 Pig 设计的目标 Pig Latine介绍 Pig关键性技术 Pig的实用案例 HDFS程序开发 实践:编写Hadoop程序打印系统配置 实践:编写Hadoop程序将本地文件拷贝到HDFS上 实践:编写Hadoop程序显示文件内容 实践:编写Hadoop程序列出文件状态 第 3 部 分 HIVE:分布式环境下的数据分析平台 MapReduce与关系型数据模型 什么是HIVE HIVE系统架构 HIVE数据模型 HIVE数据类型 HIVE查询语言 HIVE查询实例与应用场景 HIVE列存储的优劣 HIVE的扩展属性 ZooKeeper:分布式环境下的高可用架构 什么是ZooKeeper 分布式环境的部分失效 ZooKeeper的特点 一个分布式的问题 ZooKeeper的组、成员与节点 实践:编写程序创建组、加入组、列出组成员与删除组 分布式问题的回顾 ZooKeeper服务的数据模型 ZooKeeper服务的操作类型 ZooKeeper服务的高可用 ZooKeeper服务的一致性 实践:编写程序使用ZooKeeper构建高可靠的分布式配置服务 使用ZooKeeper时的异常处理 使用ZooKeeper实现锁服务 更多的分布式数据结构和协议 HBASE:非结构化数据NOSQL平台 Hbase概述 HBase的数据模型 HBase的实现 HBase的运行时 服务器的写操作与宕机恢复 服务器的读操作 使用hbase shell进行表相关操作 通过Java客户端实现表相关操作 通过MapReduce程序实现数据处理 将数据加载到HBase中 数据加载的性能 HBase与关系型数据库 Hadoop用户在HBase的常见问题 Sqoop 什么是Sqoop 导入数据的数据流 导入数据的查询划分 直接模式数据导入 使用导入的数据 导入数据到HIVE 大对象 导出数据的数据流 导出与事物 第 4 部 分 云计算概述 云多层架构视图 IaaS、PaaS与SaaS的定位与异同 云平台的发展现状 云数据中心技术架构 基于Openstack的云平台构建 Openstack项目、版本与社区 Openstack的服务与组件 Openstac

文档评论(0)

busuanzi + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档