《Hadoop大数据开发实战》教学教案—07Hive.docxVIP

下载本文档

8
0
约1.75万字
约 4页
2021-10-10 发布于安徽
举报
版权申诉

《Hadoop大数据开发实战》教学教案—07Hive.docx

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Hadoop大数据开发实战教学设计课程名称：Hadoop大数据开发实战授课年级： ______ ______________ ___ 授课学期： ___ ____ ________ ________ 教师姓名： ______________ ________ 课程名称第7章 Hive 计划学时 6学时内容分析本章主要介绍数据仓库简介、认识Hive、Hive安装、Hive数据类型、Hive数据库操作、Hive表、Hive表的查询、Hive函数、Hive性能优化、Hive案例分析教学目标与教学要求要求学生熟悉Hive安装、掌握Hive架构及其原理、掌握Hive的数据库和表的操作方法、熟悉Hive函数的使用、熟悉Hive的性能优化教学重点 Hive数据类型、Hive数据库操作、Hive表、Hive表的查询、Hive函数、Hive性能优化、Hive案例分析教学难点 Hive数据类型、Hive数据库操作、Hive表、Hive表的查询、Hive函数、Hive性能优化、Hive案例分析教学方式课堂讲解及ppt演示教学过程第一课时（数据仓库简介、认识Hive、Hive安装、Hive数据类型）回顾内容，引出本课时主题 1.回顾内容，引出本课时的主题上节学习了Hadoop2.0新特性的相关知识，本节带领大家学习数据仓库、Hive、安装Hive、Hive数据类型的相关知识。Hive是建立在Hadoop上的数据仓库工具，可以借助提取、转化、加载技术（Extract-Transform-Load，ETL）存储、查询和分析存储在 Hadoop中的大规模数据。Hive的出现使得开发人员使用相对简单类SQL（Struture Query Language，结构查询语言）语句，就可以操作Hadoop处理海量数据，大大降低了开发人员的学习成本。 2.明确学习目标能够了解数据仓库的概念能够理解数据仓库的使用能够了解数据仓库的特点和主流的数据仓库能够掌握Hive架构能够理解Hive和关系型数据库比较能够掌握Hive安装能够掌握Hive数据类型知识讲解数据仓库概述数据仓库是一个面向主题的、集成的、随时间变化但信息本身相对稳定的数据集合，用于支持管理决策过程。总体来说，数据仓库可以整合多个数据源的历史数据，进行细粒度的、多维的分析，帮助高层管理者或者业务分析人员做出商业战略决策或商业报表。数据仓库的使用一个公司的不同项目可能用到不同的数据源，有的项目数据存在MySQL里面，有的项目存在MongoDB里面，甚至还有些要做第三方数据。如果想把这些数据整合起来，进行数据分析，数据仓库（Data Warehouse，DW）就派上用场了。它可以对多种业务数据进行筛选和整合，用于数据分析、数据挖掘、数据报表，如图所示。数据仓库的特点（1）主题性。数据仓库针对某个主题来进行组织，比如“滴滴出行”的司机行为分析就是一个主题，所以它可以对多种不同的数据源进行整合；而传统的数据库主要针对某个项目，数据相对分散和孤立。（2）集成性。数据仓库需要将多个数据源的数据存到一起，但是这些数据以前的存储方式不同，所以要经过抽取、清洗、转换的过程（3）稳定性。数据仓库保存的数据是一系列历史快照，不允许修改，只能分析。（4）时变性。数据仓库会定期接收到新的数据，反映出最新的数据变化。主流的数据仓库国内最常用的是一款基于Hadoop的开源数据仓库，名为Hive，它可以对存储在HDFS的文件数据进行查询、分析。 Hive对外可以提供HiveQL（Hive Query Language，Hive查询语言），这是类似于SQL语言的一种查询语言。在查询时可转换为MapReduce任务，在Hadoop层进行执行。 Hive的最大优势在于免费，那其他知名的商业数据仓库还有Oracle、DB2，以及业界领先的Teradata Teradata支持大规模并行处理平台(MPP)，可以高速处理海量数据，性能远远高于Hive。使用Teradate的企业只需要专注于业务，能够节省管理方面的精力，实现投资回报率最大化。 Hive简介 1. Hive诞生的背景开发人员在使用MapReduce过程中面临以下两个问题。（1）Hadoop的MapReduce专业性较强，学习成本相对较高。（2）MapReduce在应用中，实现复杂查询等操作时，开发难度相对较大。为解决以上问题，使用类SQL语法的Hive应运而生。Hive诞生于Facebook，大量懂得SQL语言的开发人员快速学会通过Hive操作Hadoop集群处理海量数据，满足了Facebook管理海量社交数据和进行机器学习的需求

您可能关注的文档

文档评论（0）

139****1983 + 关注: 实名认证

文档贡献者

副教授、一级建造师持证人

一线教师。

咨询Ta 进入空间

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

更多 >

《Hadoop大数据开发实战》教学教案—07Hive.docxVIP