数据挖掘精品2分解.ppt

  1. 1、本文档共93页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1、SLIQ算法的引入 ID 3、C 4.5等算法对规模较小、可以全部放入主存的训练样本集很有效,但当训练样本集太大无法全部放入主存时,这些算法的效率明显降低,不适宜处理大规模数据。为此,IBM 研究人员在1996年提出了SLIQ算法(Supervised Learning In Quest),即Quest中的有监督学习(其中Quest是IBM Almaden研究中心的数据挖掘项目) 它是一种高速可调节的数据挖掘分类算法。实践证明,对于前面算法可以处理的小规模训练集,SLIQ的运行速度更快,生成的决策树更小,分类精度更高;对于前面算法无法处理的大规模训练集,SLIQ精度更高,优势更明显。 能同时处理离散字段和连续字段。 五、SLIQ算法 2、 SLIQ算法的基本概念 SLIQ算法采用3种数据结构来构造决策树,分别是属性表、类表和类直方图(class histogram)。 属性表含有两个字段:属性值和样本号。每个属性有一张属性表,属性表可以驻留磁盘. 类表也含有两个字段:样本类别和样本所属叶节点。类表的第k条记录对应于训练集中第k个样本(样本号为k),所以属性表和类表之间可以建立关联。类表可以随时指示样本所属的划分,所以必须长驻内存。 类直方图附在叶节点上,用来描述节点的类别分布,它由一组二元组类别,该类别的样本数组成;描述离散属性分布时,它由一组三元组属性值,类别,该类别该属性值的样本数组成。随着算法的执行,类直方图不断更新。 3、 SLIQ算法分析 SLIQ算法总流程如下所示。 1) Create node (root); 2) Prepare for data of attribute list and class list; 3) Enter queue (root): 4) While (not empty (queue)) do 5) Evaluate Splits (); 6) for all the leaf nodes in the queue do 7) Update Labels (); 8) Clean the new internal node and the pure leaf node out of the queue; 9) Let the new leaf node enter the queue; 10) MDL pruning (root); 算法的控制结构是一个队列,这个队列存放当前的所有叶子节点。这是为了控制广度优先搜索的结束。当队列空时,说明所有的叶子都已经被处理过,这时建树算法结束。第10步是利用MDL算法进行剪枝。 SLIQ算法具体步骤如下: Step1 建立类表和各个属性表,并且进行预排序,即对每个连续属性的属性表进行独立排序,以避免在每个节点上都要给连续属性值重利用新排序; Step 2 如果每个叶节点中的样本都能归为一类,则算法停止;否则转(3) ; Step 3利用属性表寻找拥有最小Gini值的划分作为最佳划分方案。算法一次只处理一张属性表,从上到下每读一条记录,就根据样本号关联到类表的相关记录,找到样本所在的叶节点,从而更新叶节点上的类直方图。 Step4 根据第3步得到的最佳方案划分节点,判断为真的样本划归为左孩子节点,否则划归为右孩子节点。这样,(3) (4)步就构成了广度优先的生成树策略。 Step 5 更新类表中的第二项,使之指向样本划分后所在的叶节点。 Step 6 转到步骤(2)。 ID3算法的假设空间包含所有的决策树,它是关于现有属性的有限离散值函数的一个完整空间。所以ID3算法避免了搜索不完整假设空间的一个主要风险:假设空间可能不包含目标函数。 ID3算法在搜索的每一步都使用当前的所有训练样例,大大降低了对个别训练样例错误的敏感性。因此,通过修改终止准则,可以容易地扩展到处理含有噪声的训练数据。 ID3算法在搜索过程中不进行回溯。所以,它易受无回溯的爬山搜索中的常见风险影响:收敛到局部最优而不是全局最优。 5、ID3算法性能分析 ID3算法只能处理离散值的属性。 信息增益度量存在一个内在偏置,它偏袒具有较多值的属性。例如,如果有一个属性为日期,那么将有大量取值,这个属性可能会有非常高的信息增益。假如它被选作树的根结点的决策属性则可能形成一颗非常宽的树,这棵树可以理想地分类训练数据,但是对于测试数据的分类性能可能会相当差。 ID3算法增长树的每一个分支的深度,直到恰好能对训练样例完美地分类。当数据中有噪声或训练样例的数量太少时,产生的树会过渡拟合训练样例。 5、ID3算法性能分析 三、 C4.5算法 C4.5算法是从ID3算法演变而来,除了拥有ID3算法的功能外, C4.5克服了ID3在应用中的不足,主要体现在: 用信息增益比例/信息增益

文档评论(0)

a336661148 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档