数据挖掘培训.ppt

  1. 1、本文档共61页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Start 目录 算法介绍 1 简介 3 应用说明 2 算法介绍 案例 5 挖掘流程 4 3P 4P 3P 10P 1P 第二十七页,共六十一页。 数据挖掘算法举例 在预先未知任何现有模式下查找模型的技术 分群 关联分析 频度分析 …… 探索型数据挖掘 预测型数据挖掘 查找目标变量与其他变量的关系的技术 回归算法 数值预测 二叉树算法 …… 统计工具 以图形等方式对数据进行统计,帮助理解数据 X2 双变量统计 …… 第二十八页,共六十一页。 决策树 曾经欠费 租期3到4个月 月平均不同受话号码数=40 曾经投诉过 无 有 是 非 话费下降至1/3 是 非 92% 不退租 是 77%流失 是 非 非 Etc. Etc. Etc. Etc. 第二十九页,共六十一页。 WAP业务分群 业务经理(29%) 使用彩铃 多打国际电话 邮寄帐单 游戏玩家(12%) 动感地带 使用梦网短信、KJava、0121, … 未来潜力(1%) 年纪最轻 通话量大 使用彩信套餐 常联系1861 勤俭节约(16%) 通话量少 动感地带 不在凌晨聊天 多省内、省际漫游 基本保守(42%) 全球通 邮寄帐单 年纪较大 第三十页,共六十一页。 关联规则 第三十一页,共六十一页。 数据质量检查 第三十二页,共六十一页。 双变量统计 第三十三页,共六十一页。 Start 目录 挖掘流程 1 简介 3 应用说明 2 算法介绍 案例 5 挖掘流程 4 3P 4P 3P 10P 1P 第三十四页,共六十一页。 数据挖掘流程-CRISP DM方法论 CRISP-DM (cross-industry standard process for data mining), 即为跨行业数据挖掘过程标准. 第三十五页,共六十一页。 数据挖掘应用流程 数据采集/ETL 探索型分析 数据建模 模型评估分析 营销活动执行 计划和设计营销活动 营销活动结果评估 营销活动调整 确定业务问题范围 第三十六页,共六十一页。 确定业务范围 明确业务目标 需求确认、目标变量确认、主算法确认 目标与常规分模型变量分析(arpu,大客户,分群结果等简单变量),二八分析等确定是否需要分模型处理。 定义响应变量 导向型 根据已有数据选择,或能够取得的变量 项目计划必要的调整 花费时间:10-15% 重要度:☆ ☆ ☆ ☆ ☆ 第三十七页,共六十一页。 了解长话业务,推广用户使用长话。 目的,增加收入, 增加使用客户。 什么样的指标为使用了长话的客户。 数据范围的选取 数据采集ETL 说明:该部分除了在数据挖掘过程中,满足数据挖掘的需要外,在项目外由专人按流程按类别整理并保存历史。 花费时间:10-15% 重要度:☆ ☆ 第三十八页,共六十一页。 探索型数据分析 注: 该部分最好能根据目标直接找出几条有用的规则。但是由于后面的模型实际需要时间不是很长,可以考虑人工发现规律与模型发现规律同步进行。 对于数据变量的离散化,可以加入通过二叉树等非常规方式进行。 花费时间:30-50% 重要度:☆ ☆ ☆ ☆ 第三十九页,共六十一页。 数据建模与模型评估 花费时间:15-20% 重要度:☆ ☆ ☆ 第四十页,共六十一页。 模型评估 M-2 M-3 M-4 M-5 M-6 M-7 M-1 M M+1 M+2 预测 M-2 M-3 M-4 M-5 M-6 M-7 M-1 M M+1 M+2 评估 分析窗口 预测窗口 预测点 M-2 M-3 M-4 M-5 M-6 M-7 M-1 M M+1 M+2 建模 模型非 行动组 模型 行动组 非模型 其他组 非模型 对照组 模型非行动组,非模型对照组一般为模型数据的10%。 模型非行动组与非模型其他组对比得到模型的效果。 非模型对照组与非模型其他组对照得到营销活动效果。 模型行动组与其他数据对比得到活动的完整结果。 使用M-6到M-4以及M-2的结果建立模型。 使用M-5到M-3的数据根据模型的结果预测M-1的数据,并与M-1的真实数据对比评估,或通过对同一份数抽取不同的样本进行建模和评估。 使用M-2到M的数据预测M+2的数据,并在M+1月实施营销策略。 模型评估 营销方案评估 活动评估 花费时间:10-20% 重要度:☆ ☆ ☆ 第四十一页,共六十一页。 计划和设计营销活动 与业务专家根据数据挖掘的结果确定营销活动的计划,包括营销的目标用户数,营销使用的套餐等营销方案。 花费时间:10-15% 重要度:☆ ☆ ☆ ☆ ☆ 第四十二页,共六十一页。 营销活动执行 花费时间:*** 重要度:☆ ☆ 第四十三页,共六十一页。 文本 / 背景 填充 超链接 浅 / 深色 一级填充 未访问 二级填充 三级填充 已访问 描边 一般文本样式 一般文本样式 一般文本样式

文档评论(0)

虾虾教育 + 关注
官方认证
内容提供者

有问题请私信!谢谢啦 资料均为网络收集与整理,收费仅为整理费用,如有侵权,请私信,立马删除

版权声明书
用户编号:8012026075000021
认证主体重庆皮皮猪科技有限公司
IP属地重庆
统一社会信用代码/组织机构代码
91500113MA61PRPQ02

1亿VIP精品文档

相关文档