第三讲：消费响应预测模型.pptVIP

下载本文档

402
0
约8.12千字
约 80页
2017-05-20 发布于浙江
举报
版权申诉

第三讲：消费响应预测模型.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第三讲：消费响应预测模型

第二讲：消费者响应预测模型主讲：梁满发数据挖掘工作意图数据挖掘工作流程问题背景创建数据挖掘项目定义源数据数据探测变量转换设置数据集属性数据分割缺失值处理树模型回归模型模型评估报告得分或预测预测信用评分模型寅示　　现实调查、观察和记录难免产生缺失数据，可是缺失数据经常会影响模型的精度。例如，不回答者可能就是不赞成者，若你把他们全排除，你的模型结论可能出现严重偏差。因此，在建前应该仔细研究缺失数据的情况和原因，采取全适的方法处理，尽量减少缺失数据可能对模型影响的程度。　　Replacement节点专门处理缺失数据的功能模块，但处理缺失数据的方法很多，要选择合适的方法，不仅需要专业统计知识，更需要熟习数据采集情况，要了解产生缺失数据的原因。　　在本例中没有缺失数据，因此，可以不要此过程。回归模型建模之前需要处理缺失数据，决策树模型不需要，自动把缺失数据归于一类。选择具备一定角色的数据集随机抽样补缺使用Defaults栏指定方法：在处理缺失值之前指定缺失值代替方法。用得分集代替不清楚类变量的值。对每一个变量创建带有标志的处理变量来处理观察值。类变量统计处理方法：最大频率法基于分布法树支处理法树支首规则处理法常数法无处理对区间变量处理缺失值统计方法： Mean……均值法　　　　　　　　　　　　　　Median……中位数法　 Midrange……极值的中间值法　　　　　　　　　Distribution based……基于分布法　 Tree imputation……树支处理法　　　　　　　　Tree imputation with surrogates……树支首规则处理法　 Mid-minimum spacing……中间平均值估计法　　Tukey‘s biweight……Tukey加权法　 Huber‘s……Huber加权法　　　　　　　　　　　Andrew‘s Wave……Andrew波动法　 Default constant……常数法　　　　　　　　　　None……不处理　　一个完整的树是指通过一系列简单规则分割数据。每一个规则就是根据某变量值将样本分给一个数据块，在数据块内一个规则接一个规则应用，将数据块分为更细的数据块。层次称为树，每块数据称为节。原始数据称为根，具有多个后续节的节称为支，最终节称为叶。每一个叶为对全部样本的一个决策结果，它依赖上下文，这种预测模型称为决策树模型。Ｆ检验，使叶间方差与叶内方差比足够大。减小节点平均值的均方误减少熵值，提高节的纯度减小Gini值，提高节的纯度。分支标准设置显著性水平，不宜太高节中保证的最少观察数在每节中替补值个数树节点支持下列模型评价标准：区间目标变量： Profit or loss – 平均利润最大，或平均损失最小。 ASE – 最小平均误差。 Average, profit, or loss in the top 10, 25, or 50% --对n％顶部样本最大平均利润，或最小平均损失。顺序目标变量： Proportion misclassified – 最小错判率。 Ordinal-proportion correct, profit, or loss –最好的秩序正判率。 Proportion of event, profit, or loss in top 10, 25, or 50% --在数据n％的顶部最大利润或最小损失。 Total Leaf Impurity (Gini Index) – 最大叶内纯度（最小Gini指数）。二值或名义目标变量： Proportion misclassified – 误判比例最小。 Profit or Loss – 最大平均利润或最小平均损失。 Proportion of event, profit, or loss in top 10, 25, or 50% --对n％顶部样本最大平均利润，或最小平均损失。 Total Leaf Impurity (Gini Index) --最大叶内纯度（最小Gini指数）。分支法则：最好的评估值最多叶最少有n叶的最大支足够样本分裂全部样本分裂给定P值，即显著性水平给出树的最多层次给出有效变量数，避免过多的自变量本例设置运行结果例如，得分前10％的样本中有19％左右的响应，高于12％；在得分前20％中有20％左右的响应。例如，得分前10％的样本中有捕获了全部响应的16％左右；在得分前20％中捕获了全部响应的32％左右。若提取得分前10％样本，则比不使用模型捕获率提高1.58倍。若对得分前20％的消费者邮寄产品册，这项活动则获得每个样本的平均利润7.5元左右。若对