- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据资源转化中数据ETL过程研究
大数据资源转化中数据ETL过程研究
摘 要:大数据无疑将催生创新、改进生产力、提高服务满意度及扩大业务范围,为各行各业提供新的发展机遇、实现价值,给人们日常生活带来方方面面的改变。然而,若不能有效地滤除大数据噪声,企业的业务拓宽、服务改进将成为纸上谈兵。本文研究了大数据背景下企业的数据资源化现状,分析了数据集成对提高企业大数据资源转化的价值,最后讨论了数据集成中起决定性的ETL过程的影响及ETL工具的选取原则。
关键词:大数据;资源转化;ETL
中图分类号:TP391.3
大数据的5V(Volume、Velocity、Variety、Veracity、Value)特性所带来的复杂性使企业面临全面挑战。面对大数据的复杂性,传统的解决方案在本地IT资源配套方面采取了高昂但低效的变通方案:比如手工编码、升级数据库来勉强应对。最好的例子就是为了联接异构数据源而设置数据准备区(Data staging area)。这一项变化不仅大大增加了数据集成环境的复杂性,而且带来了至少每年几百万的数据库运转费用[1]。
不难发现,在制定成功的数据策略时,两个关键因素必须得到反映,即易扩展性和高成本收益,这使得经常被忽视而实际起决定作用的数据集成过程应重新被纳入重点考虑。
1 企业大数据资源转化现状
随着企业信息化建设的发展,巨大的投资为企业建立了众多的信息系统,以帮助企业进行内外部业务的处理和管理工作[2]。但是随着信息系统的增加,各自孤立工作的信息系统将会造成大量的冗余数据和业务人员的重复劳动。企业应用集成(EAI,Enterprise Application Integration)应运而生。EAI通过建立底层数据交换平台来联系横贯整个企业的异构系统、应用、数据源等,完成在企业内部的ERP、CRM、SCM、数据库、数据仓库,以及其它重要的内部系统之间无缝地共享和交换数据的需要。数据集成是企业应用集成的重要环节,企业实现数据集成,可以使更多的人更充分地使用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用。
企业日常运作的信息系统一般是由多个传统系统、不兼容数据源、数据库与应用所共同构成的复杂数据集合,各个部分之间不能彼此交流。从这个层面看:目前运行的应用系统是用户花费了很大精力和财力构建的、不可替代的系统,特别是系统的数据。而建立数据仓库的目的就是要把这些不同来源的数据整合组织起来统一管理,从而做到数据的一致性与集成化,提供一个全面的,单一入口的解决方案。但是,在实施数据集成的过程中,由于不同用户提供的数据可能来自不同的途径,其数据内容、数据结构和数据质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式后丢失信息等棘手问题,严重阻碍了数据在各部门和各应用系统中的流动与共享。因此,如何对数据进行有效的集成管理已成为增强企业商业竞争力的必然选择。
2 ETL流程介绍及其作用
数据仓库是一个面向主题性、集成性、时变性、非易失性的数据集合。主要用于支持企业战略决策处理。它是商业智能中数据集成的中心点和数据集市的数据源,可以提供企业数据中的通用结构[3]。对数据仓库的研究主要集中在设计及对于决策支持方面。ETL是数据仓库中的主要技术,它原本是作为构建数据仓库的一个环节,负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。现在也越来越多地将ETL应用于一般信息系统中数据的迁移、交换和同步。
ETL中三个字母分别代表的是Extract、Transform、Load,即抽取、转换、加载。
(1)数据抽取:从源数据源系统抽取目的数据源系统需要的数据;(2)数据转换:将从源数据源获取的数据按照业务需求,转换成目的数据源要求的形式,并对错误、不一致的数据进行清洗和加工;(3)数据加载:将转换后的数据装载到目的数据源。在ETL处理过程中,数据先从OLTP(联机事务处理)数据库中抽取出来,然后转换成符合数据仓库表的格式,最后装载进数据仓库数据库中。许多数据仓库还吸收非联机事务处理系统中的数据,如TXT文件、传统系统(RDBMS,HTTP,FTP,Flat File等)以及电子表格。ETL通常是一系列过程的复杂结合。它在数据仓库发展中消耗最多努力也对商业分析、数据库设计和应用技巧性要求很高的技术手段ETL过程不是一次性的。当数据源发生变化时,数据仓库会定期需要更新。同时,当业务发生变化时,数据仓库系统同样需要改变以保持其对决策制定产生价值。因此,ETL会经历改变和发展。ETL过程的设计必须支持易改进。一个可靠的、精心设计且备有文件说明的ETL系统对于数据仓库项目的成败是至关重要
您可能关注的文档
- 大数据条件下数据挖掘技术及应用.doc
- 大数据检测在公安信息安全中应用.doc
- 大数据架构下文献资源管理与应用.doc
- 大数据概念与技术应用.doc
- 大数据治理中安全问题分析.doc
- 大数据治理在高校信息化管理中探究.doc
- 大数据浪潮下管理会计对策与发展探讨.doc
- 大数据环境下C语言课程教学模式研究.doc
- 大数据特征和相关技术分析与趋势研究.doc
- 大数据环境下东北资源型企业转型绩效评价指标体系构建.doc
- 一轮4:地球自转及其地理意义.pptx
- 25届巴蜀数学高一-5.4.2 导数与恒成立问题.pptx
- 2025年上好课高考物理二轮复习讲练测(新高考通用)-专题16 光学 电磁波(讲义)(解析版).docx
- 高考语文一轮复习整体设计-第1部分 专题2 散文阅读 第4讲 提高理解能力,深析词义、句意题.ppt
- 医学学科:切片标本1.doc
- 25届巴蜀数学高一-4.5.1 函数的零点与方程的解.pptx
- 2025 年高职工程造价(工程造价应用)试题及答案.doc
- 热奄包技术在临床应用的现状.pptx
- 教科版五年级科学下册第三单元教学课件.pptx
- 高考语文复习:小说阅读叙事视角与叙述人称课件.pptx
最近下载
- 质量保证措施之确保工程质量的技术措施.doc VIP
- 2025年鲁美附中考试题及答案 .pdf VIP
- 国家电大 可编程控制器应用实训 形考任务4答案.pdf VIP
- 2025年度专业技术人员继续教育公需科目考试题(附答案).doc VIP
- 新经典日语 第4册 第5課 メディア環境の変化.pptx VIP
- 智能汽车产业未来五年发展趋势分析:2025年商业化应用及十年技术演变.docx
- 重点语法题型梳理(Units 1-7)(知识串讲)-2024-2025学年八年级英语上学期期末考点大串讲(牛津上海版).pptx VIP
- 谷物食品与深加工技术.doc VIP
- 国家开放大学电大Android智能手机编程终结性考试第四步:上传报告文档与软件说明答案.docx
- 最新商店建筑设计规范.doc VIP
原创力文档


文档评论(0)