- 0
- 0
- 约5.24千字
- 约 39页
- 2018-02-28 发布于浙江
- 举报
[工学]腾讯大讲堂59-数据蕴含商机_挖掘决胜千里
数据蕴含商机,挖掘决胜千里 Agenda 从运筹帷幄到决胜千里… 观日月之行,察天地之变 数据爆炸的时代 数据挖掘是…… 多学科的融合 Agenda 几个基本概念 模型(Model) vs 模式(Pattern) 数据挖掘的根本目的就是把样本数据中隐含的结构泛化(Generalize)到总体(Population)上去 模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的所有点,例如聚类分析 模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析 算法(Algorithm):一个定义完备(well-defined)的过程,它以数据作为输入并产生模型或模式形式的输出 描述型挖掘(Descriptive) vs 预测型挖掘(Predictive) 描述型挖掘:对数据进行概括,以方便的形式呈现数据的重要特征 预测型挖掘:根据观察到的对象特征值来预测它的其他特征值 描述型挖掘可以是目的,也可以是手段 数据挖掘是一个过程 数据挖掘方法论 CRISP_DM (Cross Industry Standard Process for DM) 1998年,由NCR、Clementine、OHRA和Daimler-Benz的联合项目组提出 SEMMA SAS公司提出的方法 Sample, Explore, Modify, Model, Assess 在战略上使用Crisp_DM方法论,在战术上应用SEMMA方法论 工欲善其事必先利其器 数据清洗 填充缺失值, 修均噪声数据, 识别或删除孤立点, 并解决数据不一致问题 主要分析方法:分箱(Binning)、聚类、回归 数据集成 多个数据库、数据方或文件的集成 数据变换 规范化与汇总 数据简化 减少数据量的同时, 还可以得到相同或相近的分析结果 主要分析方法:抽样、主成分分析 数据离散化 数据简化的一部分, 但非常重要 (尤其对于数值型数据来说) 先来玩玩数据(EDA) 探索性数据分析(Exploratory Data Analysis, EDA) 探索性地查看数据,概括数据集的结构和关系 对数据集没有各种严格假定 主要任务 数据可视化(a picture is worth a thousand words) 残差分析(数据=拟合 + 残差) 数据的重新表达(什么样的尺度-对数抑或平方根-会简化分析) 方法的耐抗性(对数据局部不良的不敏感性,如中位数耐抗甚于均值) 常见方法 统计量,如均值、方差、根方差、协方差、峰度、偏度、相关系数等 统计图,如饼图、直方图、散点图、箱尾图等 模型,如聚类 数据挖掘 = 模型 + 算法 你使用过信用卡吗? 分类过程 物以类聚,人以群分 聚类示意 基于欧氏距离的三维空间中的聚类 基于质心的聚类算法 (K-Means) 发现商品间的关联规则 关联规则的量度 支持度:Support(A=B)=#AB/#N,表示A和B同时出现的概率 期望可信度:Support(A)=#A/#N,表示A出现的概率 置信度:Confidence(A=B)=Support(A=B)/Support(B) 改善度:Lift(A=B)=Confidence(A=B)/Support(B) 关联规则的度量 发现具有最小置信度和支持度的全部规则 X ^ Y ? Z 支持度(support), s, 事务中包含{X Y Z}的概率 置信度(confidence), c, 事务中包含{X Y}的条件下, 包含Z的条件概率 从算法到应用 数据挖掘厂商 Agenda 看看QQ的流失数据 一切从目标出发 打开观测用户的窗口 训练样本 \ 测试样本 观察窗口: 2007年1月—2007年3月 表现窗口: 2007年5月—2007年6月 Time Lag: 2007年4月 交叉校验样本 观察窗口: 2007年2月—2007年4月 表现窗口: 2007年6月—2007年7月 Time Lag: 2007年5月 勾勒出用户行为的特征 黄沙吹尽始到金 基础变量和中间变量数目约为224个 经过变量变换后的变量数目约为1700个 Lift曲线 ROC曲线 建立闭环的业务流程 Agenda 几点心得 参考文献 网络资源 联系我们 1 2,267,293 Total 0.05 226,730 9 0.07 226,729 8 0.11 226,729 7 0.15 226,730 6 0.25 226,729 5 0.35 226,729 4 0.55 226,730 3 1.03 226,728 2 2.27 226,729 1 5.17 226,729 0 Lift 样本数量 十分位 50% 75% 流失客户分析 数据挖掘 数据分析 数据采集/ETL
原创力文档

文档评论(0)