- 7
- 0
- 约4.62万字
- 约 50页
- 2019-05-11 发布于上海
- 举报
摘要
摘要
I万方数据
I
万方数据
摘 要
大数据时代到来的标志是海量数据 4v 特征的出现,随着互联网的高速发展,访问 网络过程中产生的日志数据、个人资料、通讯信息、影音资料以及各种智能终端产生 的大数据集的规模也在不断的急剧增大。面对如此大规模的数据集,大多数企业以及 客户面临的难题是当前使用的技术已不能有效管理和处理数据,因此,建立在 Hadoop 集群上运用 HDFS、HBase、Hive 的数据世系管理技术为之提供了一种可行解决方案。
数据世系是包含源数据,源数据演变的目标数据以及演变过程的信息综合体,即
初始数据经过再加工而产生宏观数据的整个过程的信息集合。数据世系管理技术的目 的是实现对数据的管理与双向追踪,通过对数据的溯源实现对数据的全程监管。
Hadoop 集群系统是集数据存储、数据挖掘、分布式并行编程和分布式协同等功能 软件的一个完整生态环境,具有高可靠性、高可扩展性、高效性、高容错性以及低成 本的特性。其中,分布式并行编程框架 MapReduce 主要适用于批量文件处理,数据统 计和查询可以采用 Hive 数据仓库工具,由此,采用整合 HBase 和 Hive 的方式可以大 幅度降低数据查询、统计的难度。因而,充分利用 Hadoop 集群的高可扩展性以及低 成本的特点,不仅可以在商用服务器集群上实现大规模的结构化、半结构化和非结构 化数据的存储,而且可以实现数据的统计与分析功能。
目前,数据世系管理技术在国外正逐渐获得广泛应用。国内在理论与实践方面虽 然也取得了一些进展,但其应用仍然处于起步阶段。因此,有效、便捷地将建立在 Hadoop 集群上、应用 HBase 和 Hive 的数据世系管理技术运用到政府部门以及企业中 是实现大数据有效管理和应用的一个重点方向。
本文在深入研究数据世系、数据溯源模型、数据溯源方法和 Perm 查询重写技术 的基础上,重点研究了 Hadoop 生态体系架构及相关存储和数据仓库管理工具,实现 了 eCRM 数据世系管理系统。主要研究内容体现在以下两个方面:
1. 基于 Hadoop 生态系统,通过运用数据世系管理技术对同一数据源内部数据的 处理和分析,实现了数据查询、统计分析和管理世系数据的功能。根据世系信息,通 过对结果数据向上溯源,追踪与之关联的输入数据,实现了数据的审查和恢复功能。 运用 Perm 查询重写技术重写查询语句,实现了世系信息的查询与管理。
2. 在给出数据世系管理系统架构,定义世系管理操作,整合 HBase 和 Hive 的基
础上,开发并实现了部署于 Hadoop 集群的 eCRM 数据世系管理系统。 实验表明,eCRM 数据世系管理系统在充分利用 Hadoop 生态系统优势的基础上,
较好地满足了 eCRM 的大数据管理需求。
关键词:Hadoop 生态系统,HBase,Hive,MapReduce,数据世系
Ab
Abstract
II万方数据
II
万方数据
Abstract
The symbol of big data era is the emergence of the 4v characteristics of mass data. With the rapid development of the Internet, the size of the large data set which includes log data, personal data, communication information and video data in the process of accessing to the network, as well as the data set produced by the variety of intelligent terminals, has been sharply increased. Facing up to such a large data set, the difficult problem for most of enterprises and customers is that current technologies being used today cannot effectively
manage and process data. Therefore, data provenance technology which utilizes HDFS 、
HBase and Hive on Hadoop cluster provides a feasible solution for the above problem.
Data provenance is an inf
您可能关注的文档
- 黄芩汤颗粒质量标准研究-中药学专业毕业论文.docx
- 蒙椴树皮乙醇提取物化学成分和三种纯化合物抗虫的研究-有机化学专业毕业论文.docx
- 蒙特卡罗方法在GM计数管优化设计中的应用研究-核技术及应用专业毕业论文.docx
- 面向中国汽车市场的色彩设计研究-艺术专业毕业论文.docx
- 面向COTS软件的智能漏洞挖掘技术研究-计算机科学与技术专业毕业论文.docx
- 考虑初始几何缺陷的大型钢板筒仓构造措施的研究-结构工程专业毕业论文.docx
- 慢性肺动脉血栓栓塞症动物模型的建立及病理生理学改变的实验分析-外科学(胸心外科)专业毕业论文.docx
- 毛细管等电聚焦加压毛细管电色谱多维联用及其在多肽蛋白质分离中的应用-药物分析学专业毕业论文.docx
- 面向Web视频的网络爬虫的研究与实现-计算机应用技术专业毕业论文.docx
- 面向售后服务的协同商务应用研究-管理科学与工程专业毕业论文.docx
- 2025年安防巡逻机器人产业化项目技术创新应用场景可行性探讨.docx
- 2026年3D打印工业制造创新报告及成本效益分析报告.docx
- 2026年树莓加工行业智能制造技术应用报告.docx
- 2026年零售行业智能创新报告.docx
- 2026年清洁能源发展创新报告.docx
- 2026年互联网行业元宇宙发展报告及虚拟现实创新分析报告.docx
- 前瞻2025:新能源汽车电池回收与资源循环利用技术创新可行性分析.docx
- 2026年无人驾驶小巴物流创新报告.docx
- 2025年工业互联网标识解析在智慧旅游智能导览中的应用前景及可行性研究.docx
- 2025年老旧小区智慧化改造,智慧社区环境监测技术创新应用.docx
最近下载
- 16S401 管道和设备保温、防结露及电伴热.pdf VIP
- 《YY/T 0337-2025麻醉和呼吸设备 气管插管和接头》.pdf
- 注册消防工程师课件获取途径.pptx VIP
- 2025-2026学年大象版(2024)小学科学一年级上册教学计划及进度表.docx
- 22J603-1 铝合金门窗(建筑图集).docx
- 移动端推荐框产品需求文档.docx VIP
- eVTOL低空经济低空无人机消防部署AI识别项目设计方案【185页WORD】.docx VIP
- 2023年大学生环保知识竞赛题.docx VIP
- 2021建筑幕墙安全性评估技术标准.docx
- 英语人教版八年级下册Unit 6 教案.pdf VIP
原创力文档

文档评论(0)