- 1、本文档共38页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ROC曲线 50% 75% 建立闭环的业务流程 流失客户分析 数据挖掘 数据分析 数据采集/ETL 现有流程评估 计划和设计挽留行动 执行挽留行动 评估挽留结果 调整应用流程 Agenda 数据挖掘是什么? 1 模型+算法 2 数据挖掘实践分享 3 心得与总结 4 几点心得 实施数据挖掘是一个战略性举措 Business First, Technique Second 数据挖掘不是万能的,没有它也不是万万不能 数据挖掘是一个循环探索的过程 参考文献 网络资源 Tecent Research Question Answer ? 联系我们 RTX:simonjiang TEL:7999 RTX:florayi TEL:8889 RTX:jeavinqiu TEL:5909 RTX:neilliao TEL:4232 Thank you !! * 商场如战场 腾 讯 大 讲 堂 研发管理部 数据蕴含商机,挖掘决胜千里 Agenda 数据挖掘是什么? 1 模型+算法 2 数据挖掘实践分享 3 心得与总结 4 从运筹帷幄到决胜千里… 舌战群儒 草船借箭 巧借东风 火烧赤壁 赤壁怀古 苏轼 …… 羽扇纶巾 谈笑间 樯橹灰飞烟灭...... 观日月之行,察天地之变 风 雷 电 雨 云 云多会下雨 刮风会下雨 下雨会闪电 闪电会打雷 …… 换成它呢??? 数据爆炸的时代 Data Mining, circa 1963 IBM 7090 600 cases “Machine storage limitations restricted the total number of variables which could be considered at one time to 25.” 数据挖掘是…… Data Information Knowledge Wisdom To find / discover / extract / dredge / harvest 、、、 Interesting / novel / useful / implicit / actable / meaningful 、、、 Information / knowledge / patterns / trends / rules / anomalies 、、、 In massive data / large data set / large database / data warehouse 、、、 Data + context Information + rules Knowledge + experience 多学科的融合 Databases Statistics Pattern Recognition KDD Machine Learning AI Neurocomputing Data Mining Agenda 数据挖掘是什么? 1 模型+算法 2 数据挖掘实践分享 3 心得与总结 4 几个基本概念 模型(Model) vs 模式(Pattern) 数据挖掘的根本目的就是把样本数据中隐含的结构泛化(Generalize)到总体(Population)上去 模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的所有点,例如聚类分析 模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析 算法(Algorithm):一个定义完备(well-defined)的过程,它以数据作为输入并产生模型或模式形式的输出 描述型挖掘(Descriptive) vs 预测型挖掘(Predictive) 描述型挖掘:对数据进行概括,以方便的形式呈现数据的重要特征 预测型挖掘:根据观察到的对象特征值来预测它的其他特征值 描述型挖掘可以是目的,也可以是手段 数据挖掘是一个过程 “from data mining to knowledge discovery in database”. U. fayyad, G.P.Shapiro and P.Smyth (1996) 数据挖掘方法论 CRISP_DM (Cross Industry Standard Process for DM) 1998年,由NCR、Clementine、OHRA和Daimler-Benz的联合项目组提出 SEMMA SAS公司提出的方法 Sample, Explore, Modify, Model, Assess 在战略上使用Crisp_DM方法论,在战术上应用SEMMA方法论 工欲善其事必先利其器 数据清洗 填充缺失值, 修均噪声数据, 识别或删除孤立点, 并解决数据不一致问题 主要分析
文档评论(0)