运营商PB级大数据服务能力外部引入研究.docVIP

下载本文档

7
0
约4.44千字
约 9页
2018-10-13 发布于湖北
举报
版权申诉

运营商PB级大数据服务能力外部引入研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

运营商PB级大数据服务能力外部引入研究　　【摘要】运营商利用大数据对内实现网络配置优化、对外实现精准营销及价值变现的需求迫切，与自身大数据分析服务能力不足的现状形成强烈的供需反差。在运营商亟需采用自建加外部引入模式建设大数据能力的背景下，提出运营商引入外部PB级大数据能力的应用场景、引入模式及引入策略。　　【关键词】 PB级大数据　　一、概述　　随着大数据时代的到来，互联网公司和电信运营商都积极投入力量进行大数据分析，充分利用企业数据，深入挖掘数据价值，对内支撑市场经营、网络优化，对外提供数据分析服务，实现数据价值变现。例如Telefonica（西班牙电信）通过与市场研究机构GFK合作，进行数据分析和打包工作，让这些数据变得更加易用，产生了巨大的经济价值。　　然而由于运营商的“先天缺陷”，与大数据平台应用成熟的互联网公司相比，存在大数据人才不足、研发能力薄弱、应用复杂度高等问题，导致当前大数据平台存在建设缓慢，大数据能力形成时间长等问题，这与日益增长的互联网大数据能力需求形成强烈的供需反差。　　与此同时，国内外领先互联网公司在内部运用大数据平台的同时也对外提供海量的大数据服务能力，因此运营商在努力打造自身大数据平台的同时，需要极开展外部引入PB级大数据服务能力的研究，借鉴外部成熟经验，通过自建+外部能力引入相结合的方式迅速提升自身的大数据服务能力。　　二、运营商外部引入大数据能力的驱动力　　2.1大数据应用需求迫切　　大数据是运营商面对OTT冲击，实现收益持续增长和企业转型的重大契机，对此业内已经形成共识。移动互联网时代，随着数据爆炸式的增长，大数据已经引爆了全球热情。对于运营商而言，数据对内能够实现网络配置优化、降低成本，对外能够通过位置数据、精准营销等数据分析实现海量数据的价值变现，因此大数据应用的需求极为迫切。　　2.2运营商自身大数据平台发展缓慢　　相比业内领先互联网公司已经形成了完善的大数据金字塔，运营商在建设自身大数据平台之时起步较晚，大部分还未实现数据统一存储、用户唯一ID和统一画像等大数据发展的基础建设。与此同时，运营商在数据结构、应用复杂度等方面更高，大数据自研和运维能力也相对较为薄弱，因此运营商在构建自身大数据平台时发展缓慢。　　2.3外部大数据分析能力已经成功转化为生产力　　国内外互联网巨头如Amazon，Google、阿里巴巴、腾讯等公司均已经成功将大数据平台转化为生产力，在企业内部成功实现数据价值变现的同时，纷纷对外提供大数据分析服务，以期占据更多的大数据市场蛋糕。　　综上所述，一方面为应对不断增长的庞大的大数据分析能力需求，另一方面又面临着自身能力不足，大数据平台建设缓慢的现实困境。运营商需要以互联网开放、共享和合作的思维发展大数据业务，考虑引入外部大数据能力与自建的大数据能力有机融合，探索内外兼修的大数据能力构建新思路，有助于尽快提升和丰富运营商的大数据服务能力。运营商自建+外部引入大数据平台的融合目标架构如图1所示。　　三、运营商PB级大数据能力外部引入方案　　3.1外部PB级大数据能力引入资源分析　　从技术上看，下述大数据处理平台均能够提供PB级的在线数据存储分析能力，包括Google的BigQuerry、Amazon的EMR、Splunk、阿里ODPS等。　　3.1.1 Splunk 　　Splunk使用MapReduce模型，及通过许多计算机组成的集群分散处理，加速计算，在Splunk中，成为分布式搜索，在搜索结果用映射函数和化简函数形式表达后，建立简介改搜索集群的网络连接，然后使用时间MapReduce方案开始处理集群，当数据流返回至启动搜索的实例时，数据存入硬盘，进行简化函数运算。　　3.1.2 BigQuerry 　　Google发布的BigQuerry解决了海量数据存储和快速处理问题。BigQuerry 的这些技术包括Google文件系统GFS、分布式计算变成模型MapReduce、分布式锁服务Chubby、分布式结构化数据表Bigtable、分布式存储系统Megastore以及分布式监控系统Dapper，Google的BigQuery使用流程如下图所示：　　3.1.3阿里ODPS 　　ODPS的体系架构由四部分组成，分别是客户端、接入层、集群调度和计算集群。用户可以基于ODPS开发自己的应用，STful请求访问ODPS RESTful API、通过ODPS CLT、通过 ODPS SDK是对RESTful API的封装，并非是一一对应的映射方式，而是提供了更高层次的抽象，以便于用户理解并运用ODPS中的概念，ODPS SDK按功能划分了Tables、Jobs、Resources、Auth