网站大量收购闲置独家精品文档,联系QQ:2885784924

数据挖掘与应用十三.ppt

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

********盈利评估假设联系顾客的成本为每人1元。第29页,共43页,星期六,2024年,5月盈利评估第30页,共43页,星期六,2024年,5月盈利评估出于随机性,它等于联系所有顾客所得利润(累计利润表最后一行的利润-13,060)与被联系人数占顾客总人数的比例的乘积。基准利润:不使用任何模型而随机联系顾客所得的利润。非累积利润图累积利润图非累积情形下,基准利润等于总利润的1/10,即-1,306;累积情形下,基准利润等于总利润的i/10,即-1.3061i(i=1,…,10)。第31页,共43页,星期六,2024年,5月因变量为二分变量的情形在实际应用中,有时D中类别1和类别0的比例λ1及λ0不同于模型将来要应用的数据中的比例π1及π0,而又希望根据D评估模型对将来要应用的数据的预测性能。这时,需要给D中的观测赋予不同的权重wi:属于类别1的观测被赋予权重wi=π1/λ1属于类别0的观测被赋予权重wi=π0/λ0在计算各项评估指标时,都需要考虑权重,例如,响应率不再简单地是响应人数与被联系人数的比例,而是响应者的权重之和与被联系者的权重之和的比例。第32页,共43页,星期六,2024年,5月因变量为多分变量的情形若因变量有离散的多种取值,可不失一般性地假设它们为1,…,K。我们在统计决策的一般框架下来讨论。假设对每一位顾客i,可采用的决策di都有M种可能取值:Al,…,AM。设模型预测顾客i属于各类别的概率为:,…,。分类问题是统计决策的一种特例,在这种情形下,di有K种可能取值:对l=1,…,K,决策Al表示将顾客归入类别l,即令=l。第33页,共43页,星期六,2024年,5月因变量为多分变量的情形可以使用决策利润来进行决策。如果对顾客i采用决策di=Am,那么带来的期望利润为令P(d│y)表示对实际属于类别y的顾客采用决策d而产生的利润。应选取使期望利润最大的决策。第34页,共43页,星期六,2024年,5月因变量为多分变量的情形在分类问题中:若因变量为名义变量,缺省地选取的决策为将顾客i归入使最大的类别l;若因变量为定序变量,缺省地 ,选取的决策为将顾客i归入使最大的类别l,即使最小的类别l。第35页,共43页,星期六,2024年,5月因变量为多分变量的情形也可以使用决策损失来进行决策。令C(d│y)为对实际属于类别y的顾客采用决策d而产生的损失。如果对顾客i采用决策di=Am,那么带来的期望损失为应选取使期望损失最小的决策。第36页,共43页,星期六,2024年,5月因变量为多分变量的情形在分类问题中:若因变量为名义变量,缺省地选取的决策为将顾客i归入使1-最小即最大的类别l;若因变量为定序变量,缺省地 ,选取的决策为将顾客i归入使最小的类别l。可以看出,使用决策利润或决策损失进行决策是等价的。第37页,共43页,星期六,2024年,5月因变量为多分变量的情形可以评估模型的平均利润 或平均损失 。在分类问题中:若因变量为名义变量,还可评估对D的总误分类率为很容易看出,如果决策利润或决策损失取缺省值,那么评估平均利润或平均损失等价于评估误分类率若因变量为定序变量,还可评估按序数距离加权的误分类率与因变量是二分变量的情形类似,我们还可以使用混淆矩阵来评估模型。第38页,共43页,星期六,2024年,5月因变量为多分变量的情形要对模型进行更加细致的评估,需要更加细致地考察决策利润或决策损失,这里仅讨论使用决策利润的情形。为了绘出响应率图、捕获响应率图、ROC图、利润图等,我们需要能够按照模型预测结果对观测进行排序,并定义谁是(实际)响应者,谁是(实际)非响应者。解决方法如下:模型预测的决策di带来的实际利润为P(di│yi),可把实际利润大于某个临界值的顾客定义为响应者,而把其他顾客定义为非响应者。按照它从大到小的顺序可以将顾客进行排列。模型预测的决策di带来的期望利润为第39页,共43页,星期六,2024年,5月因变量为多分变量的情形在实际应用中,如果D中各类别的比例λ1(l=1,…,K)不同于模型将来要应用的数据中的比例πl,而又希望根据D评估模型对将来要应用的数据的预测性能,就需要给D中的观测赋予不同的权重wi:属于类别l的顾客被赋予权重wi=πl/λl。第40页,共43页,星期六,2024年,5月因变量为连续变量的情形若因变量为连续变量,可计算下列一些评估指标:均方误差:

文档评论(0)

xiaozhuo2022 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档