- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘方法和实例_20150115.ppt
数据挖掘方法和实例 运营支持部\经营分析组2007-01-15 关联规则:基本概念 关联分析,又称购物篮分析 规则 X?Y (买了X的同时还会买Y) 支持度(support):同时买X和Y的交易次数占总交易次数的百分比 置信度(confidence):买X的交易中有多大可能性买Y(条件概率) QQShow物品推荐——关联分析” 结果片段 FO用户流失预测 FO用户流失预测 FO用户流失预测:结果 FO用户流失预测——模型的精度 挖出什么样的信息(或模式)? 新模式:数据中的关系(规则、公式等) 例如: 皮肤: 男性消费者,37岁以上,收入在 50K-75K 之间 ? 每次订购量在 $25-$50 之间 流失判断规则: 学校的数据库中含有学生信息的历史数据 校长想知道: 学生成绩与其家庭背景的关系。 究竟什么是数据挖掘? 数据挖掘 (data mining) 从大量数据中抽取令人感兴趣的(非平凡的、隐含的、以前不知道的、有效的、有潜在使用价值的)信息或模式 隐含的:不能直接从数据中导出。 例如总销售额是可以直接从数据中算出的,不算。 例如以数据库表中的一列或多列来预测另一列的数值。 预测性模型必须是有效的 模型是经过现实检验的 模型对新数据有预测能力 导出信息是能够指导行动的 挖掘之前,必须有一定目标 问题: 预测哪些用户将使用短信套餐 做法: 把已经有短信套餐的用户抽出来,找出他们的特征(例如,发现他们每月使用长途的次数为7-34次); 把这些特征去套用到尚没有使用短信套餐的用户身上,看其中哪些是符合这样的特征的; 符合这样的特征的,就是推广短信套餐的对象。 用户ID 长途次数 是否使用短信套餐 -------------------------------------------- 0001 10 1 0002 20 1 0003 7 1 0004 34 1 -------------------------------------------- 为简便起见,做如下假定 假定:影响用户是否使用短信套餐的因素,只有长途次数 假定:找出已经有短信套餐的用户共4个 “长途次数位于7-34次之间的用户会使用短信套餐” ?不!!! 理由:可能有些长途次数=29、31的用户位于这个范围内(符合所谓的特征),却没有使用短信套餐。 必须同时抽取尚未使用短信套餐的用户: 用户ID 长途次数 是否使用短信套餐 -------------------------------------------- 0001 10 1 0002 20 1 0003 7 1 0004 34 1 0005 29 0 0006 31 0 -------------------------------------------- 数据挖掘得到的判断规则: IF 长途次数 大于或等于7,小于28,THEN 用户使用短信套餐的概率=1 IF 长途次数 大于或等于29,小于32,THEN 用户使用短信套餐的概率=0 IF 长途次数 大于32,THEN 用户使用短信套餐的概率=1 建立分类模型的数据,必须包括正反两种例子。 流失、发展新用户、交叉销售、欺诈检测… 结论与直觉相反(无法解释),怎么办? 例如: 数据挖掘结果表明:客户的“亲友号码人数”越多,则流失概率越高。 用历史数据检验,此结论是正确的。 但是,客服经理的直觉是:流失应该与“亲友号码人数”无关,甚至“亲友号码人数”越多,流失概率应该越小。 要求挖掘人员将“亲友号码人数”这一因素去掉,重新建模? 挖掘模型输出的结果与直觉相反,必定是虚假和不可靠的,不能用? 要求挖掘人员和业务人员一起寻求业务上的解释,如果业务上解释得通,则采用本次数据挖掘模型,解释不通则不用? 要求挖掘人员和业务人员一起寻求业务上的解释,如果业务上解释得通,则采用本次数据挖掘模型,如果解释不通,也先采用? 关联关系:两件事情之间在数据上的联系 因果关系:两件事情之间有内在的逻辑联系 业务分析和实施人员 对问题的理解 对结果的认可 对结果的使用实施 数据管理人员 预测质量 ∝ 数据的质量和数量 “垃圾进,垃圾出”(Garbage in, garbage out) 数据挖掘人员 选用合适的算法 提高模型精度 “中医” 数据挖掘项目的一般流程 选哪些数据? 直接来自数据源的字段(例:年龄) 根据以上源数据整理得到的一些统计值(例:3个月登录次数均值) 衍生性字段 (例:3个月登录次数增长率) 根据业务直觉(智慧)和以往经验来确定 选多少? “宜多”:对于那些凭感觉
您可能关注的文档
最近下载
- 7.大华综合监控管理平台一体机dh-dss7016-d新.pdf VIP
- 第15课《中国工农红军长征与遵义会议》课件 统编版历史八年级上册.pptx VIP
- 微信小程序开发项目教程PPT完整全套教学课件.pptx VIP
- 第一单元第3课《旅程的灵感》教学设计 2025湘美版美术八年级上册.docx
- (高清版)B/T 12230-2023 通用阀门 不锈钢铸件技术条件.pdf VIP
- 屠宰企业宰前、屠宰过程及宰后检验流程要点和检验制度汇编-生猪.doc VIP
- ppt课件-第六章树和二叉树.ppt VIP
- 投标人承诺给予招标人的各种优惠条件.doc VIP
- RISC-V指令集手册说明书.pdf VIP
- 编程指南beetles应用程序开发说明.pdf VIP
原创力文档


文档评论(0)