- 1、本文档共24页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据仓库技术
内容数据仓库一些特点数据仓库的架构OracleRAC架构GreenPlum架构MapReduce的概念架构比较风险评估2024/12/162
数据仓库的目前的现状软件架构硬件架构硬软架构又可以分成封闭式和开放式。封闭式硬件架构代表厂商有teradata,其硬件是专属的,必须使用特殊的硬件才能运行。开放式硬件架构的代表有oracle,可以运行在各种硬件上,不过开放和封闭之间的界限也逐步的融合。2024/12/163
数据仓库的目前的现状2024/12/16杭州斯凯网络科技4Greenplum在这两方面取长补短,所提供的该公司的旗舰产品——Greenplum数据引擎就是特别为支持新型数据仓库和大规模分析处理而设计开发的,可以同时支持SQL和MapReduce技术。Greenplum数据引擎对有PB量级数据的大型公司提供数据处理能力。基于Greenplum数据引擎的解决方案的核心优势在于可将原来长达数小时甚至数天的运算时间缩短为几分钟。
数据仓库的软件架构数据仓库的软件架构选择更加丰富数据库软件ETL软件展现软件数据挖掘软件每一种类型里面都具备非常多的选择。2024/12/16杭州斯凯网络科技5
ETL约占整个项目的70%
2024/12/16杭州斯凯网络科技6ETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。
ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中最难部分是用户需求分析和模型设计,而ETL规则设计和实施则是工作量最大的,约占整个项目的60%~80%,
数据仓库的架构设计一些考虑因素2024/12/16杭州斯凯网络科技71.成本。成本永远是企业关心的一个核心问题,特别在如今经济寒冬,更是如此。2.效率。能否高效的处理海量的数据是一个基础要素,搞数据仓库的都知道,数据量永远是一个经常被拿出来讨论的话题。3.线性扩展。能支持线性扩展的系统在计划支撑多年的系统中特别重要,可以非常方便的做出年度预算。4.协同工作。解决多人协同开发问题。
数据仓库的架构设计一些考虑因素2024/12/16杭州斯凯网络科技85.调度。能否很方便的一目了然的看到整体调度,站在一个非常高的高度来管理各种数据流。6.兼容性。能否兼容各种异构数据。7.准确的监控系统。8.高效的开发框架。
数据仓库的架构类型2024/12/16杭州斯凯网络科技9
Oracle数据仓库的架构2024/12/16杭州斯凯网络科技10
GreenPlum数据仓库的架构2024/12/16杭州斯凯网络科技11
GreenPlum数据仓库的架构2024/12/16杭州斯凯网络科技12
MapReduce概念2024/12/16杭州斯凯网络科技13MapReduce是一种编程模型(并不是google自己开发的编程工具),用于大规模数据集(大于1TB)的并行运算。概念Map(映射)和Reduce(化简),和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(化简)函数,用来保证所有映射的键值对中的每一个共享相同的键组。
MapReduce映射概念2024/12/16杭州斯凯网络科技14简单说来,一个映射函数就是对一些独立元素组成的概念上的列表(例如,一个测试成绩的列表)的每一个元素进行指定的操作(比如前面的例子里,有人发现所有学生的成绩都被高估了一分,他可以定义一个“减一”的映射函数,用来修正这个错误。)。事实上,每个元素都是被独立操作的,而原始列表没有被更改,因为这里创建了一个新的列表来保存新的答案。这就是说,Map操作是可以高度并行的,这对高性能要求的应用以及并行计算领域的需求非常有用。
MapReduce化简概念2024/12/16杭州斯凯网络科技15而化简操作指的是对一个列表的元素进行适当的合并(继续看前面的例子,如果有人想知道班级的平均分该怎么做?他可以定义一个化简函数,通过让列表中的元素跟自己的相邻的元素相加的方式把列表减半,如此递归运算直到列表只剩下一个元素,然后用这个元素除以人数,就得到了平均分。)。虽然他
您可能关注的文档
- 高中思想政治选择性必修1当代国际政治与经济课后习题 第3单元 经济全球化 第三单元过关检测.doc
- 高中思想政治选择性必修1当代国际政治与经济课后习题 第4单元 国际组织 第四单元过关检测 (2).doc
- 高中思想政治选择性必修1当代国际政治与经济课后习题 第3单元 经济全球化 第三单元过关检测 (2).doc
- 2007年湖南省株洲市中考数学试卷(教师版).doc
- 高中高考思想政治一轮总复习课后习题 选择性必修一 当代国际政治与经济 课时规范练29 多极化趋势 (2).doc
- 八年级生物下册教学课件《生物进化的原因》.pptx
- 八年级生物下册教学课件《人的性别遗传》.pptx
- 八年级生物下册教学课件《生物进化的历程》.pptx
- 【重金属废水处理技术研究进展(任务书+)4000字】.docx
- 八年级生物下册教学课件《基因的显性和隐性》.pptx
- 【重庆市S街道家庭医生签约服务现状调研分析报告6000字】.docx
- 八年级生物下册教学课件《选择健康的生活方式》.pptx
- 高中高考思想政治一轮总复习课后习题 选择性必修一 当代国际政治与经济 课时规范练30 和平与发展 (2).doc
- 企业社保费申报流程(核定版).docx
- 高中高考思想政治一轮总复习课后习题 选择性必修一 当代国际政治与经济 课时规范练31 中国的外交 (2).doc
- 高中思想政治选择性必修1当代国际政治与经济课后习题 第1单元 各具特色的国家 第一单元过关检测.doc
- 第6章 生物的进化B卷 能力提升—高一生物学人教版(2019)必修二单元达标测试卷.docx
- 高中思想政治选择性必修1当代国际政治与经济课后习题 第2单元 世界多极化 第4课 和平与发展 第2框 挑战与应对 (2).doc
- 高中思想政治选择性必修1当代国际政治与经济课后习题 第3单元 经济全球化 第6课 走进经济全球化 第2框 日益开放的世界经济.doc
- 【泰安交通建设集团人力资源管理模式研究4900字】.doc
最近下载
- HJ1147-2023水质pH值的测定电极法.pptx VIP
- 城市污泥处置中心建设工程项目建设的必要性分析.docx VIP
- 系统解剖学学习课件(复旦大学)脑干.ppt VIP
- 广东晟典律师事务所分所设置管理办法.DOC
- 设计公司项目提成方案模板.doc
- 机械设备的润滑培训PPT课件.ppt
- 建筑工程图集 FJ01~03(2007年合订本):防空地下室建筑设计(2007年合订本) 2.pdf VIP
- 建筑工程图集 FJ01~03(2007年合订本):防空地下室建筑设计(2007年合订本) 1.pdf VIP
- 动角问题专项训练(30道).pdf VIP
- 07FJ01~03 防空地下室建筑设计(2007年合订本)图集.pdf
文档评论(0)