面向eCRM的数据世系管理技术研究及其应用-计算机技术专业毕业论文.docxVIP

  • 7
  • 0
  • 约4.62万字
  • 约 50页
  • 2019-05-11 发布于上海
  • 举报

面向eCRM的数据世系管理技术研究及其应用-计算机技术专业毕业论文.docx

摘要 摘要 I万方数据 I 万方数据 摘 要 大数据时代到来的标志是海量数据 4v 特征的出现,随着互联网的高速发展,访问 网络过程中产生的日志数据、个人资料、通讯信息、影音资料以及各种智能终端产生 的大数据集的规模也在不断的急剧增大。面对如此大规模的数据集,大多数企业以及 客户面临的难题是当前使用的技术已不能有效管理和处理数据,因此,建立在 Hadoop 集群上运用 HDFS、HBase、Hive 的数据世系管理技术为之提供了一种可行解决方案。 数据世系是包含源数据,源数据演变的目标数据以及演变过程的信息综合体,即 初始数据经过再加工而产生宏观数据的整个过程的信息集合。数据世系管理技术的目 的是实现对数据的管理与双向追踪,通过对数据的溯源实现对数据的全程监管。 Hadoop 集群系统是集数据存储、数据挖掘、分布式并行编程和分布式协同等功能 软件的一个完整生态环境,具有高可靠性、高可扩展性、高效性、高容错性以及低成 本的特性。其中,分布式并行编程框架 MapReduce 主要适用于批量文件处理,数据统 计和查询可以采用 Hive 数据仓库工具,由此,采用整合 HBase 和 Hive 的方式可以大 幅度降低数据查询、统计的难度。因而,充分利用 Hadoop 集群的高可扩展性以及低 成本的特点,不仅可以在商用服务器集群上实现大规模的结构化、半结构化和非结构 化数据的存储,而且可以实现数据的统计与分析功能。 目前,数据世系管理技术在国外正逐渐获得广泛应用。国内在理论与实践方面虽 然也取得了一些进展,但其应用仍然处于起步阶段。因此,有效、便捷地将建立在 Hadoop 集群上、应用 HBase 和 Hive 的数据世系管理技术运用到政府部门以及企业中 是实现大数据有效管理和应用的一个重点方向。 本文在深入研究数据世系、数据溯源模型、数据溯源方法和 Perm 查询重写技术 的基础上,重点研究了 Hadoop 生态体系架构及相关存储和数据仓库管理工具,实现 了 eCRM 数据世系管理系统。主要研究内容体现在以下两个方面: 1. 基于 Hadoop 生态系统,通过运用数据世系管理技术对同一数据源内部数据的 处理和分析,实现了数据查询、统计分析和管理世系数据的功能。根据世系信息,通 过对结果数据向上溯源,追踪与之关联的输入数据,实现了数据的审查和恢复功能。 运用 Perm 查询重写技术重写查询语句,实现了世系信息的查询与管理。 2. 在给出数据世系管理系统架构,定义世系管理操作,整合 HBase 和 Hive 的基 础上,开发并实现了部署于 Hadoop 集群的 eCRM 数据世系管理系统。 实验表明,eCRM 数据世系管理系统在充分利用 Hadoop 生态系统优势的基础上, 较好地满足了 eCRM 的大数据管理需求。 关键词:Hadoop 生态系统,HBase,Hive,MapReduce,数据世系 Ab Abstract II万方数据 II 万方数据 Abstract The symbol of big data era is the emergence of the 4v characteristics of mass data. With the rapid development of the Internet, the size of the large data set which includes log data, personal data, communication information and video data in the process of accessing to the network, as well as the data set produced by the variety of intelligent terminals, has been sharply increased. Facing up to such a large data set, the difficult problem for most of enterprises and customers is that current technologies being used today cannot effectively manage and process data. Therefore, data provenance technology which utilizes HDFS 、 HBase and Hive on Hadoop cluster provides a feasible solution for the above problem. Data provenance is an inf

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档