《Hadoop大数据开发实战》教学教案—07Hive.docxVIP

《Hadoop大数据开发实战》教学教案—07Hive.docx

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Hadoop大数据开发实战 教学设计 课程名称:Hadoop大数据开发实战 授课年级: ______ ______________ ___ 授课学期: ___ ____ ________ ________ 教师姓名: ______________ ________ 课程名称 第7章 Hive 计划学时 6学时 内容分析 本章主要介绍数据仓库简介、认识Hive、Hive安装、Hive数据类型、Hive数据库操作、Hive表、Hive表的查询、Hive函数、Hive性能优化、Hive案例分析 教学目标 与 教学要求 要求学生熟悉Hive安装、掌握Hive架构及其原理、掌握Hive的数据库和表的操作方法、熟悉Hive函数的使用、熟悉Hive的性能优化 教学重点 Hive数据类型、Hive数据库操作、Hive表、Hive表的查询、Hive函数、Hive性能优化、Hive案例分析 教学难点 Hive数据类型、Hive数据库操作、Hive表、Hive表的查询、Hive函数、Hive性能优化、Hive案例分析 教学方式 课堂讲解及ppt演示 教 学 过 程 第一课时 (数据仓库简介、认识Hive、Hive安装、Hive数据类型) 回顾内容,引出本课时主题 1.回顾内容,引出本课时的主题 上节学习了Hadoop2.0新特性的相关知识,本节带领大家学习数据仓库、Hive、安装Hive、Hive数据类型的相关知识。Hive是建立在Hadoop上的数据仓库工具,可以借助提取、转化、加载技术(Extract-Transform-Load,ETL)存储、查询和分析存储在 Hadoop中的大规模数据。Hive的出现使得开发人员使用相对简单类SQL(Struture Query Language,结构查询语言)语句,就可以操作Hadoop处理海量数据,大大降低了开发人员的学习成本。 2.明确学习目标 能够了解数据仓库的概念 能够理解数据仓库的使用 能够了解数据仓库的特点和主流的数据仓库 能够掌握Hive架构 能够理解Hive和关系型数据库比较 能够掌握Hive安装 能够掌握Hive数据类型 知识讲解 数据仓库概述 数据仓库是一个面向主题的、集成的、随时间变化但信息本身相对稳定的数据集合,用于支持管理决策过程。总体来说,数据仓库可以整合多个数据源的历史数据,进行细粒度的、多维的分析,帮助高层管理者或者业务分析人员做出商业战略决策或商业报表。 数据仓库的使用 一个公司的不同项目可能用到不同的数据源,有的项目数据存在MySQL里面,有的项目存在MongoDB里面,甚至还有些要做第三方数据。 如果想把这些数据整合起来,进行数据分析,数据仓库(Data Warehouse,DW)就派上用场了。它可以对多种业务数据进行筛选和整合,用于数据分析、数据挖掘、数据报表,如图所示。 数据仓库的特点 (1)主题性。数据仓库针对某个主题来进行组织,比如“滴滴出行”的司机行为分析就是一个主题,所以它可以对多种不同的数据源进行整合;而传统的数据库主要针对某个项目,数据相对分散和孤立。 (2)集成性。数据仓库需要将多个数据源的数据存到一起,但是这些数据以前的存储方式不同,所以要经过抽取、清洗、转换的过程 (3)稳定性。数据仓库保存的数据是一系列历史快照,不允许修改,只能分析。 (4)时变性。数据仓库会定期接收到新的数据,反映出最新的数据变化。 主流的数据仓库 国内最常用的是一款基于Hadoop的开源数据仓库,名为Hive,它可以对存储在HDFS的文件数据进行查询、分析。 Hive对外可以提供HiveQL(Hive Query Language,Hive查询语言),这是类似于SQL语言的一种查询语言。在查询时可转换为MapReduce任务,在Hadoop层进行执行。 Hive的最大优势在于免费,那其他知名的商业数据仓库还有Oracle、DB2,以及业界领先的Teradata Teradata支持大规模并行处理平台(MPP),可以高速处理海量数据,性能远远高于Hive。使用Teradate的企业只需要专注于业务,能够节省管理方面的精力,实现投资回报率最大化。 Hive简介 1. Hive诞生的背景 开发人员在使用MapReduce过程中面临以下两个问题。 (1)Hadoop的MapReduce专业性较强,学习成本相对较高。 (2)MapReduce在应用中,实现复杂查询等操作时,开发难度相对较大。 为解决以上问题,使用类SQL语法的Hive应运而生。Hive诞生于Facebook,大量懂得SQL语言的开发人员快速学会通过Hive操作Hadoop集群处理海量数据,满足了Facebook管理海量社交数据和进行机器学习的需求

您可能关注的文档

文档评论(0)

139****1983 + 关注
实名认证
文档贡献者

副教授、一级建造师持证人

一线教师。

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

相关文档