第三讲:消费响应预测模型.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第三讲:消费响应预测模型

第二讲:消费者响应预测模型 主讲:梁满发 数据挖掘工作意图 数据挖掘工作流程 问题背景 创建数据挖掘项目 定义源数据 数据探测 变量转换 设置数据集属性 数据分割 缺失值处理 树模型 回归模型 模型评估 报告 得分或预测 预测 信用评分模型寅示   现实调查、观察和记录难免产生缺失数据,可是缺失数据经常会影响模型的精度。例如,不回答者可能就是不赞成者,若你把他们全排除,你的模型结论可能出现严重偏差。因此,在建前应该仔细研究缺失数据的情况和原因,采取全适的方法处理,尽量减少缺失数据可能对模型影响的程度。   Replacement节点专门处理缺失数据的功能模块,但处理缺失数据的方法很多,要选择合适的方法,不仅需要专业统计知识,更需要熟习数据采集情况,要了解产生缺失数据的原因。   在本例中没有缺失数据,因此,可以不要此过程。 回归模型建模之前需要处理缺失数据,决策树模型不需要,自动把缺失数据归于一类。 选择具备一定角色的数据集 随机抽样补缺 使用Defaults栏指定方法: 在处理缺失值之前指定缺失值代替方法。 用得分集代替不清楚类变量的值。 对每一个变量创建带有标志的处理变量来处理观察值。 类变量统计处理方法: 最大频率法 基于分布法 树支处理法 树支首规则处理法 常数法 无处理 对区间变量处理缺失值统计方法: Mean……均值法              Median……中位数法  Midrange……极值的中间值法         Distribution based……基于分布法  Tree imputation……树支处理法        Tree imputation with surrogates……树支首规则处理法  Mid-minimum spacing……中间平均值估计法  Tukey‘s biweight……Tukey加权法  Huber‘s……Huber加权法           Andrew‘s Wave……Andrew波动法  Default constant……常数法          None……不处理   一个完整的树是指通过一系列简单规则分割数据。每一个规则就是根据某变量值将样本分给一个数据块,在数据块内一个规则接一个规则应用,将数据块分为更细的数据块。层次称为树,每块数据称为节。原始数据称为根,具有多个后续节的节称为支,最终节称为叶。每一个叶为对全部样本的一个决策结果,它依赖上下文,这种预测模型称为决策树模型。 F检验,使叶间方差与叶内方差比足够大。 减小节点平均值的均方误 减少熵值,提高节的纯度 减小Gini值,提高节的纯度。 分支标准设置 显著性水平,不宜太高 节中保证的最少观察数 在每节中替补值个数 树节点支持下列模型评价标准: 区间目标变量: Profit or loss – 平均利润最大,或平均损失最小。 ASE – 最小平均误差。 Average, profit, or loss in the top 10, 25, or 50% --对n%顶部样本最大平均利润,或最小平均损失。 顺序目标变量: Proportion misclassified – 最小错判率。 Ordinal-proportion correct, profit, or loss –最好的秩序正判率。 Proportion of event, profit, or loss in top 10, 25, or 50% --在数据n%的顶部最大利润或最小损失。 Total Leaf Impurity (Gini Index) – 最大叶内纯度(最小Gini指数)。 二值或名义目标变量: Proportion misclassified – 误判比例最小。 Profit or Loss – 最大平均利润或最小平均损失。 Proportion of event, profit, or loss in top 10, 25, or 50% --对n%顶部样本最大平均利润,或最小平均损失。 Total Leaf Impurity (Gini Index) --最大叶内纯度(最小Gini指数)。 分支法则: 最好的评估值 最多叶 最少有n叶的最大支 足够样本分裂 全部样本分裂 给定P值,即显著性水平 给出树的最多层次 给出有效变量数,避免过多的自变量 本例设置 运行结果 例如,得分前10%的样本中有19%左右的响应,高于12%;在得分前20%中有20%左右的响应。 例如,得分前10%的样本中有捕获了全部响应的16%左右;在得分前20%中捕获了全部响应的32%左右。 若提取得分前10%样本,则比不使用模型捕获率提高1.58倍。 若对得分前20%的消费者邮寄产品册,这项活动则获得每个样本的平均利润7.5元左右。 若对

文档评论(0)

celkhn5460 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档