- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Hadoop的电信大数据采集方案研究与实现-信息通信学术期刊网
电信科学 2017 年第 1 期
运 营技术广角
基于 Hadoop 的电信大数据采集方案研究与实现
汪保友 1 ,钱晶 1 ,袁时金 2
(1. 中国联合网络通信有限公司上海市分公司 ,上海 200050 ;
2. 同济大学软件学院 ,上海 201804 )
摘 要 :ETL 是数据仓库实施过程中一个非常重要的步骤 , 设计一个能够对大数据 进行有效 处理的 ETL 流程
以提高运营平台的采集效率 ,具有重要的实际意义 。 首先简单介绍某运 营商大数据平台采集的主要数据内容 。
随后 ,为提升海量数据采集效率 ,提出了 Hadoop 与 Oracle 混搭架构解决方案 。 继而 ,提出一种动态触 发式 ETL
调度流程与算法 ,与定时启动的 ETL 流程调度方式相比 ,可有效缩短部分流程的超长等待时间 ;有效避免资源
抢占拥堵现象 。 最后 ,根据 Hadoop 和 Oracle 的系统运行日志 ,比较分析了两个平台的采集效率与数 据 量之间
的关系 。 实践表明 ,混搭架构的大数据平台优势互补 ,可有效提升数据采集时 效性 ,获得比较好的应用效果 。
关键词 :大数据 ;ETL ;Hadoop ;调度流程 ;混搭架构
中图分类号 : 文献标识码 :
TP311 A
doi: 10.11959/j.issn.1000-0801.2017010
Research and implementation on acquisition scheme
of telecom big data based on Hadoop
1 1 2
WANG Baoyou , QIAN Jing , YUAN Shijin
1. Shanghai Branch of China United Network Communication Co., Ltd., Shanghai 200050, China
2. School of Software Engineering, Tongji University, Shanghai 201804, China
Abstract: ETL is a very important step in the implementation process of data warehouse. A good ETL flow is
important, which can effectively process the telecom big data and improve the acquisition efficiency of the operation
platform. Firstly, the main data content of the big data platform was expounded. Secondly, in order to improve the
efficiency of massive data collection, Hadoop and Oracle mashup solution was suggested. Subsequently,
原创力文档


文档评论(0)