网站大量收购独家精品文档,联系QQ:2885784924

“大数据”全生命周期管理阶段.docx

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大数据生命周期进一步细分为大数据集成、存储和处理、治理、建模、挖掘和流通等阶段。

各主要环节相关技术简介如下:

(1)大数据集成

大数据集成包括大数据采集和大数据整合。大数据采集主要是通过各种技术手段将分散的海量内容数据(文本、音频、视频等)、行为数据(访问、查询、搜索、会话、表单等)、工业生产数据(传感器数据、监控数据)等从业务系统中收集出来。

由于大数据本身具有分散、海量、高速、异质的特征,采集难度较大,因此保证数据采集的稳定性、可靠性、高效性、可用性和可扩展性等是主要的技术目标,越来越多的企业开始选用专业的数据采集服务。

大数据整合的目标是将各种分布的、异构的数据源中的数据抽取后,进行清洗、转换,最后加载到数据仓库或数据集市中,作为数据分析处理和挖掘的基础;这个过程常常也被称为ETL(Extract/抽取,Transform/转换,Load/加载),通常ETL占到整个数据仓库开发时间的60%~80%。大数据时代,数据整合软件的市场也开始了整体的技术升级,主要解决两个主要技术问题,一是独立的ETL应用服务器的计算能力普遍不足,二是无法处理半结构化和非结构化数据。

经过几年的技术发展,ETL过程逐步演进为ELT,即数据抽取后直接加载(Load)到大数据平台中,再基于大数据平台的计算能力来实现数据转换(Transform),不再依赖ETL应用服务器做抽取和转化工作,这样可以解决ETL应用服务器的处理能力不足问题,充分利用大数据平台的分布式计算能力提升数据集成的效率和稳定性。

(2)大数据存储和处理

大数据存储与处理要用服务器及相关设备把采集到的数据存储起来,使得数据能够被高效地访问和运算。由于数据量的爆发式增长,尤其是非结构化数据的大量涌现,传统的单机系统性能出现瓶颈,单纯地提高硬件配置已经难以跟上业务的需求,产生的海量数据没有合适的存储场所,企业被迫放弃大量有价值的数据;数据处理的速度和性能出现瓶颈,业务的深度和广度受到限制。因此,过去十年间,计算机系统逐步从集中式向分布式架构发展。

分布式架构及相关技术通过增加服务器的数量来提升系统的处理能力,每个节点都是一个可独立运行的单元,单个节点失效时不会影响应用整体的可用性。分布式系统在扩展性、容错性、经济性、灵活性、可用性和可维护性方面具有明显优势。

(3)数据治理

根据国际数据管理协会的定义,数据治理是对数据资产管理形式权利和控制的活动集合。数据治理是一个管理体系,包括组织、制度、流程和工具,随着集成和存储的数据量增加,数据治理的难度也逐渐增加,牵扯的关联方也越来越多,因此需要一套适合企业的方法论来开展工作。业界逐渐形成了DAMA、DCMM等较完整的数据治理体系框架,一般包括制定数据治理战略、定义数据治理工作机制、通过各个业务专题来落实相关数据治理工作内容,并最终落实到数据治理工具上来实现高效持续的数据治理的执行流程。

具体到数据治理的内容,一般包括元数据管理(包括元数据采集、血缘分析、影响分析等)、数据标准管理(包括标准定义、查询与发布等)、数据质量管理(包括质量规则定义、质量检查、质量报告等)、数据资产管理(包括数据资产编目、数据资产服务、资产审批等)、数据安全管理(包括数据权限管理、数据脱敏、数据加密等)、数据生命周期管理(包括数据归档、数据销毁等)以及主数据管理(包括主数据申请、发布、分发等)这几个主要的部分。

(4)数据建模

数据建模是构建企业数据仓库、数据湖和数据集市的重要过程,其通过一个业务级别的数据模型设计,将分散在不同数据源中的数据集成在一起,并通过一种面向业务主题的方式将数据分门别类来做重新组织和标准化,形成有明确业务意义的数据形式,统一为数据分析、数据挖掘等提供可用的数据。面向业务主题(如客户主题、账户主题等)的数据组织管理方式便于业务人员对数据的理解和综合使用。

具体到技术层面,数据建模一般包括业务调研、架构设计、数据模型设计、数据库SQL开发与测试、业务集成上线等几个阶段,架构设计是整个工作的核心,一般会面向不同的行业来设计相关行业的逻辑数据模型。在数据建模过程中使用的工具主要包括:数据模型设计与管理工具、SQL开发工具、任务调度工具等。

(5)数据分析和挖掘

大数据分析和数据挖掘的核心目标是对客观事实规律进行描述、展示和总结、刻画、推广,可以从大量的数据中通过算法来揭示出隐含的、未知的并有潜在价值信息,并对客观规律进行溯源和解释,从而帮助决策者做出正确的预测和决策。

围绕这个目标,大数据分析和挖掘的手段可以分为模型驱动、数据驱动等,一般通过统计、在线分析、情报检索、机器学习和专家系统等在内的多种方法来实现这一目标。现阶段在面对大数据“4V”问题时,大数据分析和数据挖掘工具对传统数据分析和挖掘工具做进一步自动化和智能化

文档评论(0)

外卖人-小何 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档