浅谈电信行业大数据时代商业智能系统数据管理的策略.docVIP

浅谈电信行业大数据时代商业智能系统数据管理的策略.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅谈电信行业大数据时代商业智能系统数据管理的策略

浅谈电信行业大数据时代商业智能系统数据管理的策略   【摘要】目前,商业智能系统作为电信行业主要的客户行为数据分析平台,在新业务模式下已不能满足挖掘客户需求以支撑一线营销的需要。通过讨论大数据时代的数据特点,分别从数据采集及处理、数据调度及存储、数据分析及应用三方面总结出各项数据管理的应对策略,为系统优化提供了参考。   【关键词】大数据商业智能数据管理   中图分类号:TP311.5文献标识码:A文章编号:1006-1010(2014)-09-0069-03   1 背景及研究现状分析   移动互联网时代,新型应用不断涌现,客户行为习惯也随之改变,电信运营商从以语音收入为主的业务模式,进入到了语音和流量双经营的业务模式。在此背景下,IT支撑每天面对数以PB级的海量数据[1],数据前所未有的生成速度和数量带来了“数据雪崩”(Data Avalanche)和“数据洪流”(Data Deluge)[2-3]。如何从中挖掘有价值的商业信息,适应“数据经济”(Data Economy)和“数据科学”(Data Science)[4-5]的大数据时代,这是客户挽留营销和收入增长的重要环节。   根据电信运营商现有的IT系统架构,管理及分析客户业务数据主要由基于企业级数据仓库的商业智能(Business Intelligence)系统完成。目前,面对业务部门的需求,该系统存在以下问题:   (1)分析数据缺失:客户移动互联网行为数据采集不完整,无法还原客户应用场景。   (2)数据量剧增带来存储和处理性能的压力:一个省的用户流量数据每日可达150亿条,约是传统语音计费数据的15倍。生产系统数据进入数据仓库时,ETL调度性能及数据仓库的扩容速度不满足需求。   (3)大量非结构化数据无法用传统的建模方法分析:采集到的URL串等客户行为数据,无法直接反映客户行为特征,必须经过处理和转换才能获得有用的建模信息。      2 大数据时代各项应对策略   通过上述分析,可以看出在大数据时代,商业智能系统面临的是从数据采集处理、调度存储到分析的一系列问题,本文从完善数据源开始,探讨一套完整的数据管理策略。   2.1数据采集及处理   商业智能系统并不产生实际的生产数据,数据仓库的数据都是从其他网络、计费、客服等生产系统获取的,按照既定的接口通过ETL调度定期更新及完善数据仓库中的数据。大数据时代,2G、3G、4G、WLAN四网并行,除了保证2G、3G及4G网络GPRS话单、WLAN流量话单、客户位置信息、终端信息的采集外,为了精准分析客户的行为信息,还需新增两类数据的采集,如表1所示:      表1两类客户行为数据基本信息   客户行为数据 主要处理技术 数据来源   上网内容 文本挖掘、爬虫技术 GGSN(Gateway GSN,网关GSN)等网关日志采集   客户端应用 DPI解析         (1)上网内容   指采集用户使用HTTP协议的上网行为日志,通过文本挖掘、爬虫技术对URL进行分析,获取用户的上网内容。一个省每日从网络侧获取的非结构化的URL在50亿条左右,约占1TB存储,其中隐含着具有商业价值的用户偏好信息。对于一线市场营销人员,需要的是每个客户的特征标签,比如,某用户的特征标签是喜欢上网阅读,阅读内容为言情小说,这样就可以向这位用户推荐一些手机阅读的产品。因此,需要将这些非结构化的URL记录转化为用户上网内容偏好标签,主要有以下两种方式:   1)上网搜索关键字提取:针对搜索产生的URL,解析其中关键词获取标签信息。   2)网页内容提取:   ◆建立以URL为主键的“网页信息分类库”,该信息库对网页内容进行分类,并给每条URL打上分类标签;   ◆将清洗过滤后的用户URL记录和“网页信息分类库”匹配,按照一定的规则(如访问次数最多的类型)给客户打上分类标签;   ◆如果库中没有相应的URL信息,则需要通过爬虫及文本挖掘完善“网页信息分类库”。   (2)客户端应用   即识别出用户客户端的应用,如QQ音乐、百度搜索等应用。目前主要依靠在GGSN(Gateway GSN,网关GSN)上部署DPI(Deep Packet Inspection,深度包检测)硬件设备来实现。DPI技术通过对应用流中的数据报文内容进行探测,例如对数据报文中特定比特串进行检测,从而确定数据报文真正的应用类型[6]。在目前的实际应用中,通过解析识别出来的应用已达到 1 400种以上,基本覆盖当前热门应用。   2.2数据调度及存储   其他系统采集处理后的数据,通过ETL调度到商业智能系统的数据仓库中进行存储,为下一步数据分析做准备。为了减轻大数据量带来的数据仓库调度和存储压力,对原

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档