- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
使用 Hive 构建数据仓库
省钱的数据仓库
Peter J. Jamack, 大数据分析顾问, Peter J Jamack
简介:各个组织已围绕数据仓库展开了数年的争斗。您如何构建它?您可以集成哪些数据?您应该使用Kimball 还是 Inmon,企业信
息工厂(CIF) 还是数据集市?这些问题已存在多年,甚至数十年。对于大数据,问题变得复杂得多,比如一个数据仓库是否够用?答案
取决于具体企业。人们声称 Hive 是 Hadoop 的数据仓库。尽管从某个层面上讲这是真的,但这种说法也有 分虚假。不过,有时您必
须使用您可以使用的工具,就此而言,可以将 Hive 用作一个数据仓库。
发布日期: 2013 年8 月 16 日
级别: 中级
原创语言:英文
有 3 个家伙来到了一家企业。第一个 (数据仓库)身材魁梧:他带来了历史和经验,而且能言会道,所说的大部分话都是真的。但
是,在许多方面,它有些自我膨胀,在另一些方面又有些铺张浪费,而且人们厌烦了各种结果的代价。Apache Hadoop 进入了同一栋
建筑,声称要接管整个市场。他大肆鼓吹大数据、速度、数据量、种类以及一堆v 开头的词汇,这些词汇在市场营销计划之外没有多
大意义。他 不经心地说着分析、预测等等。而且他要价很低。于是人们开始停下来倾听。
Apache Hive 在屋外徘徊,他没有打算和其他人争论。他希望与Hadoop 合作,但不同于Hadoop,他不希望将数据仓库抛在路边。
Hive 拥有数据仓库功能,但在商业智能(BI) 和分析上有一些限制。它具有数据库的潜力,但也具有关系数据库管理系统(RDBMS) 和
结构化查询语言(SQL) 方面的限制。它更加开放和诚实。它与数据仓库密切相关,与RDBMS 也密切相关。但它从未站出来声称它并
不像初看起来那么简单。Hadoop 打断了谈话,声称它是 Hadoop 领域的数据仓库。Hadoop 似乎让出了最优秀营销公关代表的地位,
在一次简单的对话之后,结果变成了是 Hive 和 Hadoop 在拯救世界。这种描述很吸引人,也很有趣。但它是真的吗?有 分相似。
数据仓库
构建一个真正的数据仓库可能是一个庞大的工程。有许多不同的设备、方法和理论。最大的共同价值是 么?事实是 么,哪些主题
与这些事实相关?以及您如何混合、匹配、合并和集成可能已存在数十年的系统与仅在 个月前实现的系统?这还是在大数据和
Hadoop 之前。将非结构化、数据、NoSQL 和Hadoop 添加到组合中,您很快就会得到一个庞大的数据集成项目。
描述一个数据仓库的最简单方式是,认识到可以将它归结为星形模式、事实和维度。您如何创建这些元素,决定权在您手上 通过暂
存数据库;动态提取、转换、加载流程;或者集成辅助索引。当然,您可以构建一个包含星形模式、事实和维度的数据仓库,使用
Hive 作为核心技术,但这并不容易。在Hadoop 世界外部,这会成为一个更大的挑战。与其说Hive 是一种合法的数据仓库,倒不如
说它是一个集成、转换、快速查找工具。该模式可能像是数据仓库,但适用性表明它不是 RDBMS。那么为 么使用它?
星形模式是什么
想象一颗星星 具有一个中心和多个指向不同方向的“手臂”。中心是动力之源或事实表。所有手臂都指向不同维度。许多数据仓库有
一个事实表和多个维度。
事实表包含您可以加权或计算的任何数据。在此示例中,您拥有棒球统计数据,比如跑垒、全垒打、击球率等。您可以计算、增加、
减去或乘以这些列。
维度更加以主题为基础。在此示例中,您有运动员信息维度、时间和日期维度,等等。通常没有计算或加权多个维度中的列。
在此示例中,将一个维度表与一个事实表连接的键是 playerID 。
简单来讲,有时您需要使用摆在面前的工具。
任何从事过一段时间的IT 工作的人都可能告诉您,适合一项工作的正 工具并不总是能够用到。或者,正 的工具虽然用得到,但为
了削减成本会阻碍使用该工具。有时企业政治学发挥着重大作用。无论 么原因,我们大部分人在很多情形下被迫使用可能并不是最
适合其工作的工具来构建、设计和开发。
在我参与的
您可能关注的文档
最近下载
- (高清版)DB42∕T 2382-2025 《社区居家养老服务机构安全应急规范》.docx VIP
- 消防基层指挥员如何做好初战控火指挥.pptx
- EN IEC 63118-1-2024 用于汽车启动、照明、点火(SLI)应用和辅助用途的12V 锂离⼦⼆次电池 第1部分:一般要求和测试方法中文版.pdf
- 《人工智能通识基础》全套教学课件.pptx
- AutomotiveSPICE_V4.0_中文版(最新版).pdf VIP
- 工程机械焊接结构图.ppt VIP
- 2025年宜昌当阳市招聘工会协理员考试笔试试题[含答案].pdf VIP
- 中职劳动教育教学课件专题四教学课件.pptx VIP
- 财务报表分析(第6版)全套PPT课件.pptx
- 双减课题小学数学作业分层设计的策略研究课题开题报告与结题报告.pdf VIP
文档评论(0)