- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘的模型评价
数据挖掘中的预测模型评价
赵荆松 中南财经政法大学企业管理2004级研究生 武汉 430064
『摘 要』 预测模型的好坏对数据挖掘的成败起着至关重要的作用。该本文首先介绍了预测模型的建立过程和模型评价的重要工具,在此基础上提出一种新的数据挖掘预测模型评价体系:横向评价模型间执行效果;纵向评价单个模型在时间和空间上的适应性。
『关键词』 数据挖掘;预测模型;累计增益图;模型评价
序言
近年来,数据挖掘得到越来越广泛的应用,数据挖掘的功能主要是预测性的和描述性的,但不论哪种功能,其核心都是为数据集建立模型。模型建立之后,可以用它进行金融风险预测,顾客行为分析等,并与商业规则结合,为客户决策提供科学的指导。因此,预测模型的好坏将对数据挖掘的成败起着至关重要的作用。
本文将从横向和纵向两方面对预测模型进行评价。横向评价侧重于模型间执行效果评价;纵向评价侧重于单个模型在时间和空间上的适应性问题。
预测模型的建立过程
预测模型的建立是数据挖掘过程中的重要步骤,但建立模型之前有许多准备工作需要完成,如业务问题理解,数据准备等。下面假设预分类数据已经准备妥当,给出建立和应用预测模型的基本步骤[1](图一)。
(图一)
初始模型是通过预分类数据(也称模型集)中的一部分数据建立起来的。用于建立模型的这部分数据称为训练集。在此步骤中,数据挖掘算法会找到数据中所包含的预测模式。
利用另外一个子集——测试集——来对模型进行修正。模型为什么要修正呢?其目的就是,为了防止模型对训练集的模式记忆太深,以使模型更具有一般性,并且能很好的适应未知数据。
可以估计模型的效果,或者对模型的效果进行比较。这个过程需要用到评价集,它是在建模和测试修正过程中尚未用到的那部分数据的集合,也是模型集的一部分。
将模型应用于得分集。得分集就是我门需要进行预测的数据集,它不是模型集的一部分也没有进行预分类。可以假定我们将利用这些预测得分来做出信息更充分的商业决策。
评价中用到的工具介绍
在模型评价中用的较多的工具是累计增益图[1]。本文将它作为对模型进行横向效果评价和纵向适应性评价的重要工具。目前绝大多数数据挖掘产品都提供对累计增益图的支持,如SAS公司的Enterprise Miner,IBM的Intelligent Miner、Oracle Darwin、SPSS Clementine、Unica PRW等。
(图二)
图二中所示是不同模型产生的累计增益图表。建模曲线和对角线包围的面积越大,说明模型执行效果越好。图中横轴表示资料得分从大到小排序之后,按十分位累计资料数百分比。那么标记为10的位置就表示该模型输出得分前10%的资料。以横轴表示这部分资料在总资料中的比例。如果20%的资料可以得到70%有意向的资料,那么这个模型就非常不错,因为描绘出来的曲线已经远离对角线。
预测模型的评价
以下将按横向和纵向两个角度对模型进行评价。横向评价主要是训练集、测试集和评价集等模型集中的内部模型比较,以及多个模型间的评价,它侧重于模型的执行效果评价,而不过多考虑模型的有效性(即模型是否会与真实情况一直或相似)。从而选出拥有最优执行效果的模型。纵向评价侧重于评价单个模型的适应性问题,模型在不同的数据集、不同时间是否都能有较满意的表现。
4.1 横向模型评价
① 训练集、测试集和评估集间的模型比较
如前所述,训练集用以建立初始模型,测试集用以对模型进行修正,而评估集对模型效果进行比较和估计。一个好的模型不仅要有合适的增益,而且在测试集和评价集上的表现非常接近,模型在训练集上的效果应该好于测试集上的效果,测试集上的效果要好于评估集上的效果。
(图三)
如图三所示,在累计增益图中,训练集的曲线应该位于测试集曲线的上方,而二者的曲线则均应该在评价集曲线的上方。如果模型建立过程中,实际情况与上述规则严重背离,则需要对模型进行重新调整。
② 模型间的评价
大多数模型建立过程中,对同一模型集会建立多个模型,此时需要对这些模型的执行效果进行比较,以选出最适当的模型。在图二中,很显然模型1的执行效果要好于模型2的执行效果,同理,模型2的执行效果要好于模型3的执行效果。
4.2纵向模型评价
横向模型评价确保选出的模型在执行效果上是最优的,但不能说该模型就是我们所要的,该模型可能与真实情况存在很大的差距。一个成功的预测模型是基于三个假定的前提:过去是将来的预言家;数据是可以获得的;数据中包括我们的预期目标。
然而,在建模时我们处理的数据只能时模型集,当用这个模型给其他数据集评分很可能预测结果不准确,这是模型空间上的适应性问题;另一方面,在时间上,得分集一般比模型集更
文档评论(0)