网站大量收购闲置独家精品文档,联系QQ:2885784924

基于树模型回归算法在预测问题中的研究.doc

基于树模型回归算法在预测问题中的研究.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于树模型回归算法在预测问题中的研究

基于树模型回归算法在预测问题中的研究 摘 要:首先介绍基于树模型的两种回归算法,通过在Weka平台上实验所得数据,对该模型下的这两种算法的预测性能给予评估。   关键词:树模型;回归算法;预测问题   0 引言    近几年,数据挖掘引起了信息产业界和整个社会的广泛关注,在这个信息化的社会,随着数据量不断增加,迫切需要将这些庞大的数据提取和转化为有用的信息和知识。获取的信息和知识能够用于各种各样的应用中,包括市场分析、欺诈检测、图像识别、风险预测和科学研究等。   随着近几年计算机技术的飞速发展,人类收集数据、存储数据的能力得到了极大地提高,无论是科学探索研究还是社会生活的各个领域中都积累了越来越多的数据,对这些庞大信息进行分析和提取数据中蕴含的有用信息,成为几乎每个领域的共同需求。在这样的趋势下,数据挖掘这门学科越来越受到人们的关注,通过实验研究开发数据挖掘的技术也越来越重要。    回归算法是数据挖掘领域中在解决预测问题所必须的核心工具,我们可以在数据挖掘工具中利用一些常用的回归算法来建立相应的预测模型,以解决实际中的回归问题。针对不同的回归算法,通过比较算法解决回归问题中建立的学习模型,并将这些算法分为基于不同模型的算法:基于线性模型的回归算法、基于K近邻模型的回归算法、基于树模型的回归算法和一些其他模型(人工神经网络、支持向量机、遗传编程等)的回归算法. 本文主要介绍基于数模型的回归算法,并在Weka平台上进行实验,根据实验数据对该模型下的两种算法的预测性能给予评估。   1 模型树M5P    用于数值预测的树模型就像普通的决策树一样,M5P(model tree)组合了树结构和线性回归模型,在叶结点储存了能预测达到叶节点的实例类值的一个线性回归模型,这种树称为模型树。当使用模型树来对一个测试实例进行数值预测的实验时,就像普通决策树一样,在每个节点根据实例的属性来决定程序的走向,直到树的叶节点。每一个叶节点含有一个基于部分属性值的线性模型,这样我们就可以通过测试实例得到一个原始的预测值。    分裂标准用于决定对某个具体节点的训练数据T按哪个属性分裂最好。传统的决策树分裂标准是通过计算样例S中各属性的信息增益来分裂的,然而,模型树在建树的过程中采用期望误差减少值(SDR),即标准差减少值,基于把数据T中类值的标准差看作是对这个节点的误差衡量,并且我们在建树的过程中计算期望误差减少值作为对这个节点每个属性进行测试的结果。然后通过计算出来的结果我们选择期望误差减少值达到最大的属性作为这个节点的分裂属性。计算如下:   SDR=sd(T)-∑[DD(]i[DD)][SX(]|T-i|[]|T|[SX)]×sd(T-i)    这里T-1,T-2,……,T-i是根据所选属性在节点进行分裂对应的第i的数据集。当在一个节点的实例类值变化十分细微时,便要终止分裂过程,即当标准差在原始标准差中只占一小部分时(比如小于5%)。当只剩下很少的实例时,比如4个或者4个以下,也终止分裂。    如前所述,不仅在模型树的每一个叶子节点有一个线性模型,在每个内部节点上也有。这是为了在修剪树的过程中进行平滑处理的需要。在修剪之前,没有修剪的每个节点上都有一个线性模型。然而,只有这个节点下层子树的测试属性才用于回归,因为其他影响预测值的属性已在引入这个节点的测试过程中考虑进去了。这里我们处理的都是数值型的属性。修剪过程其实使用了一个估计器,是在每个节点、对测试数据期望错误的估计器。首先,将这个节点上存在的所有训练集实例的预测值和真实类值之间的绝对偏差进行平均值计算。由于模型树是由这个数据集来建立的,这个平均值对于未见情形来说是一个不太准确的期望误差。为了弥补这个缺点,我们将它的系数与(n+v)/(n-v)相乘,这里n是这个节点的训练实例总的数量,v是给出这个节点预测类值的线性模型所用的参数数量。    在某个节点对测试数据的期望误差计算后使用线性模型来进行预测。因为有补偿系数(n+v)/(n-v),这样我们可以通过减少项数使误差达到最小化,从而使线性模型进一步简化,这样我们通过修剪树使得最终的模型树结构相对比较简单。减少一项便减少了相乘系数,这也许足以平衡在训练实例上平均误差的增加。我们可以再估计误差降低的条件下,贪心式的逐个减少系数。最后,一旦模型树中每个内部节点的线性模型都已到位,只要期望估计误差还在降低,便从叶节点返回修剪树。将节点的线性模型期望误差与这个节点的子树的模型期望误差进行比较。为了计算某个节点子树的期望误差,将来自每个分支的误差组合起来产生一个综合值。这个综合值是根据分支上的训练实例的数量比率对分支进行加权,利用这些权值将误差估计进行线性组合。    在建立模型树的过程中,修剪过的树的两个相邻节点的线性模

您可能关注的文档

文档评论(0)

pangzilva + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档