Hive数据仓库应用教程高职PPT完整全套教学课件.pptx

下载文档

23
0
约14.58万字
约 560页
2024-10-15 发布于广东
举报
版权申诉
保障服务

Hive数据仓库应用教程高职PPT完整全套教学课件.pptx

1、本文档共560页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

项目1认识Hive.pptx;;

e数据仓库应用教程》

认识数据仓库;

1.1.1任务描述

本任务将带领大家了解数据仓库的概念，包括数据仓库的特点、数据模型以及体系结构。通过与传统数据库进行对比，让大家了解数据仓库相较于传统数据库的优势。;

结构化的数据集合

存储、检索、查询、管理数据的系统

支持多种数据类型：文本、数字、图片等

数据库模型：关系型、非关系型等

数据库架构：单层、两层、三层架构数据和数据库模式

数据组织与管理

提供信息存储和检索的高效方式

支持应用程序和用户决策;

2.数据库管理系统(DBMS)

软件系统，用于创建和管理数据库

(1)DBMS的定义

提供数据的安全性、完整性、备份与恢复

数据定义、更新、管理

(2)DBMS的功能数据安全管理和访问控制

性能监控和优化

保证数据—致性和完整性

(3)DBMS的重要性支持多用户环境和并发控制

提供数据独立性和抽象化;;

3.传统数据库的局限性

(4)性能受限于复杂查询：传统数据库设计优化事务处理，不适合复杂分析

(5)缺少元数据管理：传统数据库不提供元数据管理工具，影响数据理解和使用。

(6)决策支持不足：传统数据库不适合需复杂数据分析和挖掘的决策支持和商业智能。;

1.数据仓库的概念

数据仓库是一种专为分析和决策支持设计的集中化数据存储环境。它不同于传统数据库，因为它专注于数据的整合、历史存储和复杂查询性能。数据仓库整合来自多个业务系统的数据，使用特定的数据模型如星型或雪花模型，并采用列式存储等技术优化分析性能。它还配备了严格的数据治理和安全措施以保证数据准确和合规。对用户而言，数据仓库提供了一个统一的视图，支持高级数据探索和业务趋势预测的分析工具。;

2.数据仓库的特点

(1)面向主题：数据仓库围绕企业的关键主题(如客户、销售、库存、财务等)来组织数据，以便于进行跨领域的分析。

(2)集成：它整合了来自企业内多个分散的操作型数据库的数据，提供了一个清洁、一致的全局视图。

(3)数据稳定性：数据仓库中的数???相对稳定，更多用于查询和分析，而不像操作型数据库那样频繁更新。

(4)历史变化：数据仓库存储数据的历史状态，使得分析师可以执行趋势分析和预测分析。

(5)高性能查询：通过使用特定的存储技术和查询优化，数据仓库能够高效处理大量数据的复杂查询。;

3.数据仓库的数据模型

数据仓库的数据模型是按层次组织的，它定义了数据如何被组织、存储和分析，主要分为三个层次：

1.数据物理层：这是与数据的物理存储和检索机制直接相关的层级。它关注数据的物理存储结构、编码方式和存储位置。

2.概念数据层：这一层面向整体逻辑结构和关系，提供一个全局和抽象的视图，描述数据实体、属性和它们之间的关系。

3.逻辑数据层：是用户交互的层级，基于概念层设计，更聚焦于用户的数据需求。它通过视图、报表等形式，为用户提供定制的数据展示和分析工具。;

1.1.3任务实施

4.数据仓库的体系结构

数据仓库的体系结构是支撑其高效运行和满足各种数据需求的关键。一个典型的数据仓库体系结构通常分为三个主要层次：源数据层、数据仓库层和数据应用层。

数据应用报表展示即席查询数据分析数据挖掘;

《Hive数据仓库应用教程》

认识Hive数据仓库;

1.1.1任务描述

在当前的任务中，我们将深入探讨Hive,这是一个基于Hadoop的数据仓库工具。我们将详细介绍Hive的架构、基本数据类型及其如何融入整个大数据生态系统。通过本次任务，读者将更好地理解Hive的功能、优点以及它在大规模数据处理和分析中的角色。;

1.OLTP(联机事务处理)

OLTP是传统的关系型数据库的主要应用，如MySQL、Oracle和SQLServer。它主要处理基本的日常事务，如银行交易、订单处理等。OLTP系统的特点是高并发、小数据量的事务，要求快速的读写响应。

2.0LAP(联机分析处理)

与OLTP不同，OLAP专注于数据仓库系统，支持复杂的分析操作，侧重于决策支持。它处理的数据量通常很大，但查询的并发性相对较低。OLAP系统通常为用户提供直观、易懂的查询结果，帮助决策者进行趋势分析、数据挖掘等操作。

了解这两者的区别对于理解Hive在大数据生态系统中的位置非常重要。Hive主要作为一个OLAP工具，允许用户在Hadoop上进行复杂的数据分析。;

1.Hive概述

Hive是一个为处理大规模数据集而构建的数据仓库工具，它专门为Hadoop生态系统开发。利用Hadoop的HDFS

您可能关注的文档

文档评论（0）

chenzehao888 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

Hive数据仓库应用教程高职PPT完整全套教学课件.pptx