数据挖掘与应用十三.pptVIP

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
因变量为二分变量的情形 在实际应用中,有时D中类别1和类别0的比例λ1及λ0不同于模型将来要应用的数据中的比例π1及π0,而又希望根据D评估模型对将来要应用的数据的预测性能。 这时,需要给D中的观测赋予不同的权重wi: 属于类别1的观测被赋予权重wi = π1 / λ1 属于类别0的观测被赋予权重wi = π0 / λ0 在计算各项评估指标时,都需要考虑权重,例如,响应率不再简单地是响应人数与被联系人数的比例,而是响应者的权重之和与被联系者的权重之和的比例。 * 当前第31页\共有42页\编于星期五\0点 因变量为多分变量的情形 若因变量有离散的多种取值,可不失一般性地假设它们为1, … ,K。 我们在统计决策的一般框架下来讨论。假设对每一位顾客i,可采用的决策di都有M种可能取值:Al, … ,AM。 设模型预测顾客i属于各类别的概率为: , … , 。 分类问题是统计决策的一种特例,在这种情形下,di有K种可能取值:对l=1, … ,K,决策Al表示将顾客归入类别l,即令 =l。 * 当前第32页\共有42页\编于星期五\0点 因变量为多分变量的情形 可以使用决策利润来进行决策。 如果对顾客i采用决策di=Am,那么带来的期望利润为 令P(d│y)表示对实际属于类别y的顾客采用决策d而产生的利润。 应选取使期望利润最大的决策。 * 当前第33页\共有42页\编于星期五\0点 因变量为多分变量的情形 在分类问题中: 若因变量为名义变量,缺省地 选取的决策为将顾客i归入使 最大的类别l; 若因变量为定序变量,缺省地 , 选取的决策为将顾客i归入使 最大的类别l,即使 最小的类别l。 * 当前第34页\共有42页\编于星期五\0点 因变量为多分变量的情形 也可以使用决策损失来进行决策。 令C(d│y)为对实际属于类别y的顾客采用决策d而产生的损 失。 如果对顾客i采用决策di=Am,那么带来的期望损失为 应选取使期望损失最小的决策。 * 当前第35页\共有42页\编于星期五\0点 因变量为多分变量的情形 在分类问题中: 若因变量为名义变量,缺省地 选取的决策为将顾客i归入使1- 最小即 最大的类别l; 若因变量为定序变量,缺省地 , 选取的决策为将顾客i归入使 最小的类别l。可以看出,使用决策利润或决策损失进行决策是等价的。 * 当前第36页\共有42页\编于星期五\0点 因变量为多分变量的情形 可以评估模型的平均利润 或平均损失 。在分类问题中: 若因变量为名义变量,还可评估对D的总误分类率为 很容易看出,如果决策利润或决策损失取缺省值,那么评估平均利润或平均损失等价于评估误分类率 若因变量为定序变量,还可评估按序数距离加权的误分类率 与因变量是二分变量的情形类似,我们还可以使用混淆矩阵来评估模型。 * 当前第37页\共有42页\编于星期五\0点 因变量为多分变量的情形 要对模型进行更加细致的评估,需要更加细致地考察决策利润或决策损失,这里仅讨论使用决策利润的情形。 为了绘出响应率图、捕获响应率图、ROC图、利润图等,我们需要能够按照模型预测结果对观测进行排序,并定义谁是(实际)响应者,谁是(实际)非响应者。解决方法如下: 模型预测的决策di带来的实际利润为P(di│yi) ,可把实际利润大于某个临界值的顾客定义为响应者,而把其他顾客定义为非响应者。 按照它从大到小的顺序可以将顾客进行排列。 模型预测的决策di带来的期望利润为 * 当前第38页\共有42页\编于星期五\0点 因变量为多分变量的情形 在实际应用中,如果D中各类别的比例λ1(l=1, … ,K)不同于模型将来要应用的数据中的比例πl,而又希望根据D评估模型对将来要应用的数据的预测性能,就需要给D中的观测赋予不同的权重wi:属于类别l的顾客被赋予权重wi=πl/λl。 * 当前第39页\共有42页\编于星期五\0点 因变量为连续变量的情形 若因变量为连续变量,可计算下列一些评估指标: 均方误差: 均方误差: 均方误差: 均方误差: 还可绘出Yi与 的散点图,或者Yi - 与 的散点图。 * 当前第40页\共有42页\编于星期五\0点 因变量为连续变量的情形 实际应用中也可能需要为每位顾客选择某种决策。 假设联系每位顾客的成本为r,那么决策利P(A1│y)=y-r,而P(A2│y)=0。 令P(d│y)表示对实际购买金额为y的顾客采用决策d而产生 的利润。 仍举直邮营销为例,如果因变量Yi为顾客i的购买金额,可选择的两种决策为联系(记为A1)或不联系(记为A2)。 如果对顾客i采用决策di=A1,预测利润为 如果对顾客i采用决

文档评论(0)

hejiaman2991 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档