腾讯大讲堂数据蕴含商机挖掘决胜千里.pptVIP

腾讯大讲堂数据蕴含商机挖掘决胜千里.ppt

  1. 1、本文档共39页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
腾讯大讲堂数据蕴含商机挖掘决胜千里

数据蕴含商机,挖掘决胜千里 Agenda 从运筹帷幄到决胜千里… 观日月之行,察天地之变 数据爆炸的时代 数据挖掘是…… 多学科的融合 Agenda 几个基本概念 模型(Model) vs 模式(Pattern) 数据挖掘的根本目的就是把样本数据中隐含的结构泛化(Generalize)到总体(Population)上去 模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的所有点,例如聚类分析 模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析 算法(Algorithm):一个定义完备(well-defined)的过程,它以数据作为输入并产生模型或模式形式的输出 描述型挖掘(Descriptive) vs 预测型挖掘(Predictive) 描述型挖掘:对数据进行概括,以方便的形式呈现数据的重要特征 预测型挖掘:根据观察到的对象特征值来预测它的其他特征值 描述型挖掘可以是目的,也可以是手段 数据挖掘是一个过程 数据挖掘方法论 CRISP_DM (Cross Industry Standard Process for DM) 1998年,由NCR、Clementine、OHRA和Daimler-Benz的联合项目组提出 SEMMA SAS公司提出的方法 Sample, Explore, Modify, Model, Assess 在战略上使用Crisp_DM方法论,在战术上应用SEMMA方法论 工欲善其事必先利其器 数据清洗 填充缺失值, 修均噪声数据, 识别或删除孤立点, 并解决数据不一致问题 主要分析方法:分箱(Binning)、聚类、回归 数据集成 多个数据库、数据方或文件的集成 数据变换 规范化与汇总 数据简化 减少数据量的同时, 还可以得到相同或相近的分析结果 主要分析方法:抽样、主成分分析 数据离散化 数据简化的一部分, 但非常重要 (尤其对于数值型数据来说) 先来玩玩数据(EDA) 探索性数据分析(Exploratory Data Analysis, EDA) 探索性地查看数据,概括数据集的结构和关系 对数据集没有各种严格假定 主要任务 数据可视化(a picture is worth a thousand words) 残差分析(数据=拟合 + 残差) 数据的重新表达(什么样的尺度-对数抑或平方根-会简化分析) 方法的耐抗性(对数据局部不良的不敏感性,如中位数耐抗甚于均值) 常见方法 统计量,如均值、方差、根方差、协方差、峰度、偏度、相关系数等 统计图,如饼图、直方图、散点图、箱尾图等 模型,如聚类 数据挖掘 = 模型 + 算法 你使用过信用卡吗? 分类过程 物以类聚,人以群分 聚类示意 基于欧氏距离的三维空间中的聚类 基于质心的聚类算法 (K-Means) 发现商品间的关联规则 关联规则的量度 支持度:Support(A=>B)=#AB/#N,表示A和B同时出现的概率 期望可信度:Support(A)=#A/#N,表示A出现的概率 置信度:Confidence(A=>B)=Support(A=>B)/Support(B) 改善度:Lift(A=>B)=Confidence(A=>B)/Support(B) 关联规则的度量 发现具有最小置信度和支持度的全部规则 X ^ Y ? Z 支持度(support), s, 事务中包含{X & Y & Z}的概率 置信度(confidence), c, 事务中包含{X & Y}的条件下, 包含Z的条件概率 从算法到应用 数据挖掘厂商 Agenda 看看QQ的流失数据 一切从目标出发 打开观测用户的窗口 训练样本 \ 测试样本 观察窗口: 2007年1月—2007年3月 表现窗口: 2007年5月—2007年6月 Time Lag: 2007年4月 交叉校验样本 观察窗口: 2007年2月—2007年4月 表现窗口: 2007年6月—2007年7月 Time Lag: 2007年5月 勾勒出用户行为的特征 黄沙吹尽始到金 基础变量和中间变量数目约为224个 经过变量变换后的变量数目约为1700个 Lift曲线 ROC曲线 建立闭环的业务流程 Agenda 几点心得 参考文献 网络资源 联系我们 1 2,267,293 Total 0.05 226,730 9 0.07 226,729 8 0.11 226,729 7 0.15 226,730 6 0.25 226,729 5 0.35 226,729 4 0.55 226,730 3 1.03 226,728 2 2.27 226,729 1 5.17 226,729 0 Lift 样本数量 十分位 >50% >75% 流失客户分析 数据挖掘 数据分析

文档评论(0)

178****9325 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档