- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Clementine的数据分析与处理
中讯邮电咨询设计院有限公司 刘喜卿
2017年6月
2
第一部分 数据分析工具Clementine引入的背景及意义
目录
第二部分 Clementine的应用理念及引入的优势
第三部分 Clementine的基本操作演示
第四部分 Clementine在网优分析中的实战应用
第五部分 展望
3
背景及意义
世界大
数据发
展趋势
社交网络、移动设备、传感器、交通、医疗等各行业不断的产生信息,使得数据正以每年50%的量增长着, 2011年,全球共有1.8ZB字节的数据产生
近日的运营支撑大会上,专家预测,大数据会成为继云计算后我国下一个国家战略
非结构化、半结构化、结构化的大容量且高速率的数据,我们能做什么?
增强收集海量数据、分析萃取信息的能力,对于容量大且速率高的大数据使用全新的处理方式,提升决策力和洞察力以及优化处理能力,提高科学和研究的步伐
驱动
运营商对数据分析的需求
?
4
背景及意义
世界大
数据发
展趋势
随着W及PA+网络的的成熟,移动互联网迅猛发展,数据增长速度加快,运营商新业务不断涌现,导致数据暴增。
信令数据、互联网数据其规模已经达到数百TB,甚至PB规模,整个产业压力突出,传统数据库技术已无法满足运营商对大数据充分利用的需求。
对运营商来说,数据爆发性增长后,带来的收入并未改观,网络问题依然不断,因此,如何利用好运营商手中的大数据,成为需要面对的问题
驱动
运营商对数据分析的需求
5
引入Clementine的必然性-1
贴近用户感知,增加用户满意度
快速发现解决问题,节省运维成本
网络技术日益复杂
网络复杂度不断增加
网络层次结构日益增多
网络规模不断增大
业务不断多样化
用户不断增多
贴近用户感知,找到用户需要和运营方向
从大量数据这一源头追根溯源
数据分析方法上:
多接口多数据源的联合优化
几类业务数据之间的表面关系,深入到各种业务数据之间内在关联的研究
从使用一种单一的方法解决单一问题,到融合多种方法解决复杂问题
数据分析内容上:
从简单统计KPI到真正贴近用户感知,进行底层用户事件级的关联分析
发现网络故障和潜在隐性问题,找到优化方法
6
大量的数据使得专业数据挖掘分析工具Clementine的应用引入应运而生
引入Clementine的必然性-2
另一方面
网优平台
从数据源中去挖掘
优化分析
现网多样化的隐匿问题
数据量大且复杂的分析工作
利用专业数据分析工具的应用优势,基于网优平台的数据进行充实分析,形成新的成果后固化到网优平台上
统计监控
信令跟踪
用户行为分析
?
小数据分析excel解决
7
7
第一部分 数据分析工具Clementine引入的背景及意义
目录
第二部分 Clementine的应用理念及引入的优势
第三部分 Clementine的基本操作演示
第四部分 Clementine在网优分析中的实战应用
第五部分 展望
8
Clementine软件概况
应用主体思路
软件概述
Clementine
发展及特点
基本概况
专业化特点
最早由英国ISL公司开发,1998年被SPSS公司收购,并重新整合
和开发
2009年,被IBM收购,成为IBM麾下一款面向商业用户的高品质
数据挖掘产品,从诸如Statsoft Statistics、Oracle DM、
MATLAB等众多软件中脱颖而出
跨行业数据挖掘的标准过程,
*定位是面向行业、工具导
向、面向应用
*适用于大型工业和商业实
践的一般标准
六个阶段:
商业理解
数据理解
数据准备
建模
模型评估
结果发布
9
Clementine软件概况
应用主体思路
软件概述
Clementine的操作与数据分析的一般流程相吻合。数据分析通常经过数据收集、数据展示恶化预处理、模型建立、模型评价等环节。Clementine形象的将这些环节表示成若干节点,将数据分析过程看成数据在各个节点之间的流动,并通过一个图形化的‘数据流’直观表示整个数据分析过程。
处理流程
操作目的
Clementine的操作目的就是要建立一条或多条数据流,不断修改和调整流中的节点及参数,执行数据流,进而完成整个数据分析任务。
数据导入
数据处理
结果展示
1
2
3
10
Clementine软件的关键应用优势
可视化编程
大数据量处理
模块化处理
丰富的数据挖掘算法
# 对于一个340M的数据文件 #
很难打开,后续基于公式的数据处理更为困难,甚至死机,效率较低
51秒 √
8秒 √
excel
Clementine
首次读入
缓存后读入
59秒 √
文件大小不影响Clementine
文档评论(0)