- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
电信运营商大数据系统建设初析
电信运营商大数据系统建设初析
【摘要】 结合运营商内部大数据系统建设实际经验,从数据、平台、能力、应用等四个方面对运营商大数据系统建设提出自己的想法和意见,仅供参考。
【关键词】 大数据 hadoop 能力建设
4G时代,运营商“管道化”一词开始被频繁提及。运营商与互联网企业,传统电信业务与OTT业务被从各个角度进行比较,与此同时,大数据,作为运营商利用“管道”资源进行自我救赎的重要举措也开始在各运营商落地、开花。
大数据系统的建设,无外乎数据、平台、能力、应用等几个层面,电信运营商作为作为网络服务接入者和网络内容的承载者,在大数据系统建设方面有着自己的先天优势,同时在建设过程中也有一些针对性要求:传统电信级运营的准确、稳定、安全的要求与互联网模式所强调的快速、体验、迭代在理念上的冲突也要求电信运营商在大数据的建设、运营方面有所突破。
一、数据
相对互联网企业而言运营商在数据来源方面具有明显优势:
1、全覆盖,运营商所能获取的数据包含了行为(浏览、搜索、下载等)、时间、位置(基于基站的位置)甚至可能包行用户本次浏览的体验(网速、掉线等)。这些数据APP只能以游走法律边缘的形式偷偷获取(如手机识别码、位置、通话记录),甚至根本无法获得(用户本次浏览的体验),而对运营商而言这些都只是运营商提供服务所必须具备的基础数据,运营商先天拥有这些数据。同时运营商能获取用户全天候上网行为数据,保证了对用户上网行为数据的全面掌握,相对而言,任何APP都无法避免被关闭,甚至后台进程一起被关闭而无法获取用户任何信息的黑暗时期。
2、强关联,通过IMEI这个天然的“关键字”,所有用户的上网行为可以被明确地关联至准确的用户,避免了cookie存在的已识别用户丢失的问题;通过LAC和CI,用户的位置等信息可以被准确关联致小区、基站,对用户“在哪儿”做什么的跟踪也变得非常容易。
3、多维度,运营上不仅有用户的上网行为数据,还有用户的通话、缴费等传统营帐数据数据,有投诉、咨询等客服数据。能全面刻画用户视图。
在我们的系统建设过程中,我们首先考虑的是DPI数据(Gn口)、信令数据(电路域(A口、IuCS)及数据域(Gb、IuPS))的获取。通过Gn口数据,我们对用户LAC、CI、流量类型、应用IP地址、流量、时长等信息进行解析;通过信令数据,我们对用户LAC、CI、呼叫次数、是否成功等信息进行解析。同时,BOSS重要数据也被一并接入,力图从上网行为、通话行为、缴费行为、位置、投诉、终端等各种维度客户用户画像。
二、平台
笼统而言电信运营商对平台的需求至少包含以下几个方面:
1、稳定:底层可升级,确保底层平台的延续性。尽可能采用开源版本,减少运维压力;2、易用:屏蔽hadoop底层技术难点,运营商可集中精力处理能力实现、应用支持等核心问题;3、可视化:元数据管理、任务管理、运行监控、资源分配等操作尽可能采用可视化操作;常用挖掘算法、工具的调用,重点数据源的引用均应尽可能以可视化方式实现;4、自动:任务分布式依赖与调度,减少人工干预;5、数据生命周期管理:数据保存周期的自动维护、归档和清理;6、多租户:数据的隔离与访问控制以确保安全,避免在ETL、数据初加工、建模、能力建设等任何环节被绑定于一个供应商;7、安全共享:实现自动数据脱敏、日志、审计等;
目前市场上主流的大数据平台主要有hadoop(开源)、Greenplum、Vertica等;Hadoop 分布式计算平台是Hadoop 采用开源模式,以分散存储和并行计算为基础的分布式计算平台,利用低成本的通用计算设备(PC)组成大型集群,构建下一代具备高性能的海量数据分布式计算服务平台,其由hdfs支持的分散存储、由map/reduce实现的并行计算、由hive实现的数据仓库平台,hdaoop很好地支持了超大规模数据存储能力、高性能分布式处理、数据可靠性保障、系统的水平扩展,其主要问题在于不支持联机事务分析及相对陡峭的学习曲线。考虑到GP等昂贵的license费用、对最前沿技术跟进的相对滞后,hadoop无疑是最好的选择。为解决学习曲线陡峭的问题,我们在基础平台上建设了基础平台管理系统,实现对基础平台的图形化、可视化管理;建设了数据管理系统实现对元数据、数据安全、访问控制等的管理。在很好地利用了开源性、多租户、安全、稳定等平台优势的同时,实现了易用性、可视化。
三、能力
电信运营商的大数据能力建设至少应该包括以下2个方面:建模/挖掘能力、数据开放能力。
就建模、挖据能力而言,大数据价值的最终来源并不在于其庞大的基础数据量,而在于数据之间若有若无的微妙联系以及在此基础上的数据关联的模式;在于各数据图层叠加的过程中凸显
您可能关注的文档
最近下载
- 髋臼骨缺损分型.pptx VIP
- 《全新版大学进阶英语综合教程》课程标准.pdf VIP
- 术后有效排痰护理PPT.pptx VIP
- 髋臼及股骨骨缺损的分型及评价【45页】.pptx VIP
- (人教A版)必修一数学高一上册第二章 一元二次函数、方程和不等式 章末总结+单元检测(原卷版).docx VIP
- 伟迪捷Videojet 1210 1510 操作员手册 2011年修订版.pdf
- 理论力学哈工大第六版-课件.ppt
- 2023年高考全国卷(甲卷)数学(理)真题(含解析).pdf VIP
- 虚体医学丛书:医说解集——昆明新空间1025实验室.pdf VIP
- 护理事业近五年发展规划(2026-2030).pdf VIP
文档评论(0)