网站大量收购独家精品文档,联系QQ:2885784924

数据挖掘与应用十三.ppt

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
盈利评估 出于随机性,它等于联系所有顾客所得利润(累计利润表最后一行的利润-13,060)与被联系人数占顾客总人数的比例的乘积。 基准利润:不使用任何模型而随机联系顾客所得的利润。 非累积利润图 累积利润图 非累积情形下,基准利润等于总利润的1/10,即-1,306;累积情形下,基准利润等于总利润的i/10,即-1.3061i (i=1, … ,10)。 * 第三十一页,共四十三页,2022年,8月28日 因变量为二分变量的情形 在实际应用中,有时D中类别1和类别0的比例λ1及λ0不同于模型将来要应用的数据中的比例π1及π0,而又希望根据D评估模型对将来要应用的数据的预测性能。 这时,需要给D中的观测赋予不同的权重wi: 属于类别1的观测被赋予权重wi = π1 / λ1 属于类别0的观测被赋予权重wi = π0 / λ0 在计算各项评估指标时,都需要考虑权重,例如,响应率不再简单地是响应人数与被联系人数的比例,而是响应者的权重之和与被联系者的权重之和的比例。 * 第三十二页,共四十三页,2022年,8月28日 因变量为多分变量的情形 若因变量有离散的多种取值,可不失一般性地假设它们为1, … ,K。 我们在统计决策的一般框架下来讨论。假设对每一位顾客i,可采用的决策di都有M种可能取值:Al, … ,AM。 设模型预测顾客i属于各类别的概率为: , … , 。 分类问题是统计决策的一种特例,在这种情形下,di有K种可能取值:对l=1, … ,K,决策Al表示将顾客归入类别l,即令 =l。 * 第三十三页,共四十三页,2022年,8月28日 因变量为多分变量的情形 可以使用决策利润来进行决策。 如果对顾客i采用决策di=Am,那么带来的期望利润为 令P(d│y)表示对实际属于类别y的顾客采用决策d而产生的利润。 应选取使期望利润最大的决策。 * 第三十四页,共四十三页,2022年,8月28日 因变量为多分变量的情形 在分类问题中: 若因变量为名义变量,缺省地 选取的决策为将顾客i归入使 最大的类别l; 若因变量为定序变量,缺省地 , 选取的决策为将顾客i归入使 最大的类别l,即使 最小的类别l。 * 第三十五页,共四十三页,2022年,8月28日 因变量为多分变量的情形 也可以使用决策损失来进行决策。 令C(d│y)为对实际属于类别y的顾客采用决策d而产生的损 失。 如果对顾客i采用决策di=Am,那么带来的期望损失为 应选取使期望损失最小的决策。 * 第三十六页,共四十三页,2022年,8月28日 因变量为多分变量的情形 在分类问题中: 若因变量为名义变量,缺省地 选取的决策为将顾客i归入使1- 最小即 最大的类别l; 若因变量为定序变量,缺省地 , 选取的决策为将顾客i归入使 最小的类别l。可以看出,使用决策利润或决策损失进行决策是等价的。 * 第三十七页,共四十三页,2022年,8月28日 因变量为多分变量的情形 可以评估模型的平均利润 或平均损失 。在分类问题中: 若因变量为名义变量,还可评估对D的总误分类率为 很容易看出,如果决策利润或决策损失取缺省值,那么评估平均利润或平均损失等价于评估误分类率 若因变量为定序变量,还可评估按序数距离加权的误分类率 与因变量是二分变量的情形类似,我们还可以使用混淆矩阵来评估模型。 * 第三十八页,共四十三页,2022年,8月28日 因变量为多分变量的情形 要对模型进行更加细致的评估,需要更加细致地考察决策利润或决策损失,这里仅讨论使用决策利润的情形。 为了绘出响应率图、捕获响应率图、ROC图、利润图等,我们需要能够按照模型预测结果对观测进行排序,并定义谁是(实际)响应者,谁是(实际)非响应者。解决方法如下: 模型预测的决策di带来的实际利润为P(di│yi) ,可把实际利润大于某个临界值的顾客定义为响应者,而把其他顾客定义为非响应者。 按照它从大到小的顺序可以将顾客进行排列。 模型预测的决策di带来的期望利润为 * 第三十九页,共四十三页,2022年,8月28日 因变量为多分变量的情形 在实际应用中,如果D中各类别的比例λ1(l=1, … ,K)不同于模型将来要应用的数据中的比例πl,而又希望根据D评估模型对将来要应用的数据的预测性能,就需要给D中的观测赋予不同的权重wi:属于类别l的顾客被赋予权重wi=πl/λl。 * 第四十页,共四十三页,2022年,8月28日 因变量为连续变量的情形 若因变量为连续变量,可计算下列一些评估指标: 均方误差: 均方误差: 均方误差: 均方误差: 还可绘出Yi与 的散点图,或者Yi - 与 的散点图。 *

文档评论(0)

lanlingling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档