数据挖掘与应用(十三)讲述.ppt

下载文档 降价啦

3
0
约6.58千字
约 43页
2017-05-15 发布于湖北
举报
版权申诉
保障服务

数据挖掘与应用(十三)讲述.ppt

1、本文档共43页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* * 因变量为二分变量的情形在实际应用中，有时D中类别1和类别0的比例λ1及λ0不同于模型将来要应用的数据中的比例π1及π0，而又希望根据D评估模型对将来要应用的数据的预测性能。这时，需要给D中的观测赋予不同的权重wi: 属于类别1的观测被赋予权重wi = π1 / λ1 属于类别0的观测被赋予权重wi = π0 / λ0 在计算各项评估指标时，都需要考虑权重，例如，响应率不再简单地是响应人数与被联系人数的比例，而是响应者的权重之和与被联系者的权重之和的比例。 * 因变量为多分变量的情形若因变量有离散的多种取值，可不失一般性地假设它们为1, … ,K。我们在统计决策的一般框架下来讨论。假设对每一位顾客i，可采用的决策di都有M种可能取值:Al, … ,AM。设模型预测顾客i属于各类别的概率为: , … , 。分类问题是统计决策的一种特例，在这种情形下，di有K种可能取值：对l=1, … ,K，决策Al表示将顾客归入类别l,即令 =l。 * 因变量为多分变量的情形可以使用决策利润来进行决策。如果对顾客i采用决策di=Am，那么带来的期望利润为令P(d│y)表示对实际属于类别y的顾客采用决策d而产生的利润。应选取使期望利润最大的决策。 * 因变量为多分变量的情形在分类问题中：若因变量为名义变量，缺省地选取的决策为将顾客i归入使最大的类别l；若因变量为定序变量，缺省地，选取的决策为将顾客i归入使最大的类别l，即使最小的类别l。 * 因变量为多分变量的情形也可以使用决策损失来进行决策。令C(d│y)为对实际属于类别y的顾客采用决策d而产生的损失。如果对顾客i采用决策di=Am，那么带来的期望损失为应选取使期望损失最小的决策。 * 因变量为多分变量的情形在分类问题中：若因变量为名义变量，缺省地选取的决策为将顾客i归入使1- 最小即最大的类别l；若因变量为定序变量，缺省地，选取的决策为将顾客i归入使最小的类别l。可以看出，使用决策利润或决策损失进行决策是等价的。 * 因变量为多分变量的情形可以评估模型的平均利润或平均损失。在分类问题中：若因变量为名义变量，还可评估对D的总误分类率为很容易看出，如果决策利润或决策损失取缺省值，那么评估平均利润或平均损失等价于评估误分类率若因变量为定序变量，还可评估按序数距离加权的误分类率与因变量是二分变量的情形类似，我们还可以使用混淆矩阵来评估模型。 * 因变量为多分变量的情形要对模型进行更加细致的评估，需要更加细致地考察决策利润或决策损失，这里仅讨论使用决策利润的情形。为了绘出响应率图、捕获响应率图、ROC图、利润图等，我们需要能够按照模型预测结果对观测进行排序，并定义谁是(实际)响应者，谁是(实际)非响应者。解决方法如下: 模型预测的决策di带来的实际利润为P(di│yi) ，可把实际利润大于某个临界值的顾客定义为响应者，而把其他顾客定义为非响应者。按照它从大到小的顺序可以将顾客进行排列。模型预测的决策di带来的期望利润为 * 因变量为多分变量的情形在实际应用中，如果D中各类别的比例λ1(l=1, … ,K)不同于模型将来要应用的数据中的比例πl，而又希望根据D评估模型对将来要应用的数据的预测性能，就需要给D中的观测赋予不同的权重wi：属于类别l的顾客被赋予权重wi=πl/λl。 * 因变量为连续变量的情形若因变量为连续变量，可计算下列一些评估指标: 均方误差: 均方误差: 均方误差: 均方误差: 还可绘出Yi与的散点图，或者Yi - 与的散点图。 * 因变量为连续变量的情形实际应用中也可能需要为每位顾客选择某种决策。假设联系每位顾客的成本为r，那么决策利P(A1│y)=y-r，而P(A2│y)=0。令P(d│y)表示对实际购买金额为y的顾客采用决策d而产生的利润。仍举直邮营销为例，如果因变量Yi为顾客i的购买金额，可选择的两种决策为联系(记为A1)或不联系(记为A2)。如果对顾客i采用决策di=A1，预测利润为如果对顾客i采用决策di=A2，预测利润为因此，如果，则选取决策di=Ai，否则选取决策di=A2。 * 因变量为连续变量的情形为了绘出模型的响应率图、捕获响应率图、ROC图、利润图等，我们同样需要能够按照模型预测结果对观测进行排序，并定义谁是(实际)响应者，谁是(实际)非响应者。解决方法如下: 模型预测的决策di带来的预测利润为，按照它从大到小的顺序将顾客进行排列。模型预测的决策di带来的实际利润为P(di│Yi) ，可把实际利润