数据挖掘与应用十三.pptVIP

下载本文档

1
0
约7.51千字
约 42页
2023-09-27 发布于广东
举报
版权申诉

数据挖掘与应用十三.ppt

1、本文档共42页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

因变量为二分变量的情形在实际应用中，有时D中类别1和类别0的比例λ1及λ0不同于模型将来要应用的数据中的比例π1及π0，而又希望根据D评估模型对将来要应用的数据的预测性能。这时，需要给D中的观测赋予不同的权重wi: 属于类别1的观测被赋予权重wi = π1 / λ1 属于类别0的观测被赋予权重wi = π0 / λ0 在计算各项评估指标时，都需要考虑权重，例如，响应率不再简单地是响应人数与被联系人数的比例，而是响应者的权重之和与被联系者的权重之和的比例。 * 当前第31页\共有42页\编于星期五\0点因变量为多分变量的情形若因变量有离散的多种取值，可不失一般性地假设它们为1, … ,K。我们在统计决策的一般框架下来讨论。假设对每一位顾客i，可采用的决策di都有M种可能取值:Al, … ,AM。设模型预测顾客i属于各类别的概率为: , … , 。分类问题是统计决策的一种特例，在这种情形下，di有K种可能取值：对l=1, … ,K，决策Al表示将顾客归入类别l,即令 =l。 * 当前第32页\共有42页\编于星期五\0点因变量为多分变量的情形可以使用决策利润来进行决策。如果对顾客i采用决策di=Am，那么带来的期望利润为令P(d│y)表示对实际属于类别y的顾客采用决策d而产生的利润。应选取使期望利润最大的决策。 * 当前第33页\共有42页\编于星期五\0点因变量为多分变量的情形在分类问题中：若因变量为名义变量，缺省地选取的决策为将顾客i归入使最大的类别l；若因变量为定序变量，缺省地，选取的决策为将顾客i归入使最大的类别l，即使最小的类别l。 * 当前第34页\共有42页\编于星期五\0点因变量为多分变量的情形也可以使用决策损失来进行决策。令C(d│y)为对实际属于类别y的顾客采用决策d而产生的损失。如果对顾客i采用决策di=Am，那么带来的期望损失为应选取使期望损失最小的决策。 * 当前第35页\共有42页\编于星期五\0点因变量为多分变量的情形在分类问题中：若因变量为名义变量，缺省地选取的决策为将顾客i归入使1- 最小即最大的类别l；若因变量为定序变量，缺省地，选取的决策为将顾客i归入使最小的类别l。可以看出，使用决策利润或决策损失进行决策是等价的。 * 当前第36页\共有42页\编于星期五\0点因变量为多分变量的情形可以评估模型的平均利润或平均损失。在分类问题中：若因变量为名义变量，还可评估对D的总误分类率为很容易看出，如果决策利润或决策损失取缺省值，那么评估平均利润或平均损失等价于评估误分类率若因变量为定序变量，还可评估按序数距离加权的误分类率与因变量是二分变量的情形类似，我们还可以使用混淆矩阵来评估模型。 * 当前第37页\共有42页\编于星期五\0点因变量为多分变量的情形要对模型进行更加细致的评估，需要更加细致地考察决策利润或决策损失，这里仅讨论使用决策利润的情形。为了绘出响应率图、捕获响应率图、ROC图、利润图等，我们需要能够按照模型预测结果对观测进行排序，并定义谁是(实际)响应者，谁是(实际)非响应者。解决方法如下: 模型预测的决策di带来的实际利润为P(di│yi) ，可把实际利润大于某个临界值的顾客定义为响应者，而把其他顾客定义为非响应者。按照它从大到小的顺序可以将顾客进行排列。模型预测的决策di带来的期望利润为 * 当前第38页\共有42页\编于星期五\0点因变量为多分变量的情形在实际应用中，如果D中各类别的比例λ1(l=1, … ,K)不同于模型将来要应用的数据中的比例πl，而又希望根据D评估模型对将来要应用的数据的预测性能，就需要给D中的观测赋予不同的权重wi：属于类别l的顾客被赋予权重wi=πl/λl。 * 当前第39页\共有42页\编于星期五\0点因变量为连续变量的情形若因变量为连续变量，可计算下列一些评估指标: 均方误差: 均方误差: 均方误差: 均方误差: 还可绘出Yi与的散点图，或者Yi - 与的散点图。 * 当前第40页\共有42页\编于星期五\0点因变量为连续变量的情形实际应用中也可能需要为每位顾客选择某种决策。假设联系每位顾客的成本为r，那么决策利P(A1│y)=y-r，而P(A2│y)=0。令P(d│y)表示对实际购买金额为y的顾客采用决策d而产生的利润。仍举直邮营销为例，如果因变量Yi为顾客i的购买金额，可选择的两种决策为联系(记为A1)或不联系(记为A2)。如果对顾客i采用决策di=A1，预测利润为如果对顾客i采用决