- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Hadoop的电信大数据采集方案研究与实现
汪保友 ’,钱晶 ’,袁时金 。
(1.中国联合网络通信有限公司上海市分公司,上海 200050;
2.同济大学软件学院,上海 201804)
摘 要 :ETL是数据仓库实施过程 中一个非常重要 的步骤 ,设计一个能够对大数据进行有效处理的ETL流程
以提高运营平台的采集效率 ,具有重要的实际意义。首先简单介绍某运营商大数据平台采集的主要数据内容。
随后 ,为提升海量数据采集效率 ,提出了Hadoop与 Oracle混搭架构解决方案 。继而 ,提出一种动态触发式 ETL
调度流程与算法,与定时启动的ETL流程调度方式相 比,可有效缩短部分流程的超长等待时间;有效避免资源
抢 占拥堵现象。最后 ,根据 Hadoop和 Oracle的系统运行 日志,比较分析 了两个平 台的采集效率与数据量之间
的关系 。实践表 明,混搭架构的大数据平 台优势互补 ,可有效提升数据采集时效性 ,获得 比较好的应用效果 。
关键词:大数据;ETL;Hadoop;调度流程 ;混搭架构
中图分类号 :11P311 文献标识码 :A
doi:10.11959~.issn.1000—0801.2017010
Researchandimplementationonacquisitionscheme
oftelecom bigdatabasedonHadoop
WANGBaoyou,QIANJing,YUANShijin2
1.ShanghaiBranchofChinaUnitedNetworkCommunicationCo.,Ltd.,Shanghai200050,China
2.SchoolofSoftwareEngineering,TongjiUniversity,Shanghai201804,China
Abstract:ETL isavery importantstep in the implementation processofdatawarehouse.A goodETL flow is
important,whichcaneffectivelyprocesshtetelecom bigdataandimprovehteacquisitionefficiencyofhteoperation
platform.Firefly,htemain daat contentofthebigdataplaftomr wasexpounded.Secondly,inordertoimprovehte
efficiencyofmassivedaat collection,HadoopandOraclemashup solutionWas suggested.Subsequently,adynamic
triggeredETL schedulingflow andalgorihtm wasproposed.Comparedwith timerstartETL schedulingmehtod,it
could effectively shortenwaiting timeand avoid htephenomenon ofresourcesto seizenad congestion.Finally,
accordingtohterunninglogofHadoopplaftomr andOracledatabase,therelationshipbetweenacquisitionefficiency
anddaat quantitywasanalyzed comparatively.Furthemr ore,practiceresultshowsthathtehybriddatastructureof
thebig dataplatfomr complementeach otherandCna effectively enhance t
原创力文档


文档评论(0)