数据挖掘的步骤及实例客户流失模型.pptxVIP

数据挖掘的步骤及实例客户流失模型.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘的步骤及实例客户流失模型第1页/共23页0 数据挖掘的步骤第一步:需求分析。明确挖掘目标和要求。第二步:数据理解。了解目前的数据状况。第三步:数据准备:选择挖掘的数据并进行预处理 第四步:挖掘算法与挖掘软件的选择。第五步:构建硬件、软件、数据平台,确定相关参数,并具体挖掘。第六步:结果展示与评价、导出。第2页/共23页0 数据挖掘的步骤Knowledge数据挖掘中的数据变换过程解释/评估数据挖掘预处理及变换变换后的数据数据清理筛选目标数据数据第3页/共23页1 需求分析第一步:需求分析。明确挖掘目标和要求。任务: 1)明确挖掘目标和要求。 2)确定数据挖掘的类别:关联、分类、回归、聚类? 3)初步判断挖掘所需要的数据质量如何 4)如何展示和应用挖掘结果。 5)挖掘系统部署后,对业务有哪些提升?方法: 1)调查、访谈。 2)头脑风暴。头脑风暴会议应在充分的材料准备基础上,在轻松的环境中进行,以充分发挥与会人员的才智。第4页/共23页1 需求分析手机客户流失预测需求分析: 发展一个新客户的成本远远高于保持一个老客户。所以,保持老客户就十分重要。 一个电信企业在运营过程中,不可避免地要流失部分客户。所以,可以从大量的与客户相关的数据中,运用决策树等方法建立客户流失预测模型。从而对初显流失客户特征的客户采取必要的挽留措施,达到保值老客户的目的。第5页/共23页2 数据理解第二步:数据理解。即了解目前的数据状况。 1. 需要的数据及含义 2. 数据的分布情况: 需要的数据都分布在哪些系统(数据库、表)中,有多少数据。 3. 数据的质量: 1)关键数据是否能够获取。 2)缺失值或无效值数量如何? 3)是否有足够的历史数据。第6页/共23页2 数据理解手机客户流失预测数据理解: 预测需要的数据:客户数据、通话详单、短信详单、投诉数据、交费数据等。客户数据:客户代码客户姓名性别年龄学历职业单位收入…手机号码号码品牌套餐付款方式入网渠道客户类型… 客户级别数据按月提供,每个客户一条记录。客户的年龄、职业、学历、收入等数据准确性较低。第7页/共23页2 数据理解通话详单数据:通话一次,记录一行数据。手机号码对方号码呼叫类型长途类型漫游类型通话开始时间通话持续时间….主叫被叫短信详单数据:一条短信,记录一行。手机号码对方号码数据量发送时间。。。第8页/共23页2 数据理解投诉数据:客户号码投诉时间投诉类型投诉小类投诉处理情况客户满意度…..交费数据: 对后付费客户,主要是交费是否及时,对预付费客户,主要是充值时间、金额等。第9页/共23页3 数据准备(数据预处理)第三步:数据准备。按要求准备好需要挖掘的数据。 按照挖掘要求,通过抽取数据,转换,聚集以及数据预处理技术,将数据整理成适合挖掘的形式。 在数据挖掘中,数据预处理指的是根据数据挖掘算法和软件的要求,对已有的数据进行必要的加工,使其能满足挖掘要求的数据处理过程。已讲过的数据预处理方面的内容: 1)聚类分析部分: 非数值数据的数值化 标准化(归一化、规范化) 本节: 数据抽样 属性选择 缺值处理 属性合成2)分类与预测部分: 连续数据离散化 离散数据的概念提升第10页/共23页3 数据准备(数据预处理)1.数据抽样 由于数据挖掘算法有时间复杂度和空间复杂度的限制,所以,当数据集过大时,需要对数据进行抽样。 方法: 1)随机抽样:一般采用无放回方法进行随机抽样。 2)分层抽样。先根据某个条件(如分类中的类别)将数据集划分成若干个子集(每个子集称为一个层),再对每个子集进行随机抽样。第11页/共23页3 数据准备(数据预处理)2.属性选择 有些问题中,对象的属性很多。有些属性可能是无关的属性,这些属性可能使学习算法受到干扰。另一方面,有些算法处理高维的数据也有困难。所以,事先有必要在所有属性中,选择出比较重要的属性。 属性子集选择方法包括以下技术: 1.逐步向前选择: 由空属性集开始,每次都选择原属性集中最好的属性,将其添加到集合中。 2.逐步向后删除: 由整个属性集开始,在每一步,删除掉尚在属性集中的最坏属性。 3. 向前选择和向后删除的结合: 每一步选择一个最好的属性,并在剩余属性中删除一个最坏的属性。第12页/共23页3 数据准备(数据预处理)3. 缺值处理 缺值:某些对象在某些属性上缺少值。典型处理方法有: 1.直接删除 缺值实例数较少,而实例总数很大时采用。 2.新值法 将缺值作为一个新值看待。 例如:选择型问卷调查中,有些题调查者没有答。此时,可增加一个选择E。如果没有选择,就认为他选择了E。 3.统计填充法 用该属性非缺值的均值,或中位点,或众数填充。 4.预测估计法第13页/共23页3 数据准备(数据预处理)4.属性合成含义:属性合成指将一个或若

您可能关注的文档

文档评论(0)

kuailelaifenxian + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体太仓市沙溪镇牛文库商务信息咨询服务部
IP属地上海
统一社会信用代码/组织机构代码
92320585MA1WRHUU8N

1亿VIP精品文档

相关文档