数据挖掘精品2分解.ppt

下载文档 降价啦

4
0
约1.25万字
约 93页
2017-05-08 发布于湖北
举报
版权申诉
保障服务

数据挖掘精品2分解.ppt

1、本文档共93页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

1、SLIQ算法的引入 ID 3、C 4.5等算法对规模较小、可以全部放入主存的训练样本集很有效，但当训练样本集太大无法全部放入主存时，这些算法的效率明显降低，不适宜处理大规模数据。为此，IBM 研究人员在1996年提出了SLIQ算法(Supervised Learning In Quest)，即Quest中的有监督学习（其中Quest是IBM Almaden研究中心的数据挖掘项目) 它是一种高速可调节的数据挖掘分类算法。实践证明，对于前面算法可以处理的小规模训练集，SLIQ的运行速度更快，生成的决策树更小，分类精度更高;对于前面算法无法处理的大规模训练集，SLIQ精度更高，优势更明显。能同时处理离散字段和连续字段。五、SLIQ算法 2、 SLIQ算法的基本概念 SLIQ算法采用3种数据结构来构造决策树，分别是属性表、类表和类直方图(class histogram)。属性表含有两个字段：属性值和样本号。每个属性有一张属性表，属性表可以驻留磁盘. 类表也含有两个字段：样本类别和样本所属叶节点。类表的第k条记录对应于训练集中第k个样本(样本号为k)，所以属性表和类表之间可以建立关联。类表可以随时指示样本所属的划分，所以必须长驻内存。类直方图附在叶节点上，用来描述节点的类别分布，它由一组二元组类别，该类别的样本数组成；描述离散属性分布时，它由一组三元组属性值，类别，该类别该属性值的样本数组成。随着算法的执行，类直方图不断更新。 3、 SLIQ算法分析 SLIQ算法总流程如下所示。 1) Create node (root); 2) Prepare for data of attribute list and class list; 3) Enter queue (root): 4) While (not empty (queue)) do 5) Evaluate Splits (); 6) for all the leaf nodes in the queue do 7) Update Labels (); 8) Clean the new internal node and the pure leaf node out of the queue; 9) Let the new leaf node enter the queue; 10) MDL pruning (root); 算法的控制结构是一个队列，这个队列存放当前的所有叶子节点。这是为了控制广度优先搜索的结束。当队列空时，说明所有的叶子都已经被处理过，这时建树算法结束。第10步是利用MDL算法进行剪枝。 SLIQ算法具体步骤如下： Step1 建立类表和各个属性表，并且进行预排序，即对每个连续属性的属性表进行独立排序，以避免在每个节点上都要给连续属性值重利用新排序； Step 2 如果每个叶节点中的样本都能归为一类，则算法停止；否则转(3) ； Step 3利用属性表寻找拥有最小Gini值的划分作为最佳划分方案。算法一次只处理一张属性表，从上到下每读一条记录，就根据样本号关联到类表的相关记录，找到样本所在的叶节点，从而更新叶节点上的类直方图。 Step4 根据第3步得到的最佳方案划分节点，判断为真的样本划归为左孩子节点，否则划归为右孩子节点。这样，(3) (4)步就构成了广度优先的生成树策略。 Step 5 更新类表中的第二项，使之指向样本划分后所在的叶节点。 Step 6 转到步骤(2)。 ID3算法的假设空间包含所有的决策树，它是关于现有属性的有限离散值函数的一个完整空间。所以ID3算法避免了搜索不完整假设空间的一个主要风险：假设空间可能不包含目标函数。 ID3算法在搜索的每一步都使用当前的所有训练样例，大大降低了对个别训练样例错误的敏感性。因此，通过修改终止准则，可以容易地扩展到处理含有噪声的训练数据。 ID3算法在搜索过程中不进行回溯。所以，它易受无回溯的爬山搜索中的常见风险影响：收敛到局部最优而不是全局最优。 5、ID3算法性能分析 ID3算法只能处理离散值的属性。信息增益度量存在一个内在偏置，它偏袒具有较多值的属性。例如，如果有一个属性为日期，那么将有大量取值，这个属性可能会有非常高的信息增益。假如它被选作树的根结点的决策属性则可能形成一颗非常宽的树，这棵树可以理想地分类训练数据，但是对于测试数据的分类性能可能会相当差。 ID3算法增长树的每一个分支的深度，直到恰好能对训练样例完美地分类。当数据中有噪声或训练样例的数量太少时，产生的树会过渡拟合训练样例。 5、ID3算法性能分析三、 C4.5算法 C4.5算法是从ID3算法演变而来，除了拥有ID3算法的功能外， C4.5克服了ID3在应用中的不足，主要体现在：用信息增益比例/信息增益