SLIQ：一种快速可扩展的分类算法.ppt

下载文档 降价啦

7
0
约8.74千字
约 53页
2017-10-07 发布于湖北
举报
版权申诉
保障服务

SLIQ：一种快速可扩展的分类算法.ppt

1、本文档共53页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

SLIQ：一种快速可扩展的分类算法

SLIQ：一种快速可扩展的分类算法讲课人：杨震 1.SLIQ算法的扩展性。 2.最优分之的选择问题。 2.1.连续属性的分支选择。 2.1.1.预排序。 2.1.2.计算最佳分割。 2.1.3.选择分支属性生成子节点并更新类表。 2.1.4.决策树结束构建。 2.1.5.MDL修剪。 2.1.6.具体实例。 2.2.离散属性的分支选择。 3.总结 1.SLIQ算法的扩展性。 2.最优分之的选择问题。 2.1.连续属性的分支选择。 2.1.1.预排序。 2.1.2.计算最佳分割。 2.1.3.选择分支属性生成子节点并更新类表。 2.1.4.决策树结束构建。 2.1.5.MDL修剪。 2.1.6.具体实例。 2.2.离散属性的分支选择。 3.总结 1. SLIQ算法的扩展性分类算法存在一个问题——不能进行扩展数据量在急剧增长，训练样本达到数百万是非常普遍的，由于内存及CPU时间的限制，原有的许多算法已经无法处理这些数据。因此，必须寻找新的方法来解决大数据集的分类问题。 SLIQ使用如下技术提高可扩展性用预排序技术来减少计算连续属性的代价。利用贪心算法来确定离散属性的分支。使用MDL算法修剪树。 1.SLIQ算法的扩展性。 2.最优分之的选择问题。 2.1.连续属性的分支选择。 2.1.1.预排序。 2.1.2.计算最佳分割。 2.1.3.选择分支属性生成子节点并更新类表。 2.1.4.决策树结束构建。 2.1.5.MDL修剪。 2.1.6.具体实例。 2.2.离散属性的分支选择。 3.总结最优分支的选择问题最优分支的选择依据于分支指标，分支指标用来给属性的可选分支确定“优良程度”。分支指标：熵（ID3和C4.5）最小Gini指标（CART，SLIQ和SPRINT）。 SLIQ使用Gini指标作为分支指标定义：对数据集包含n个类的数据集S，Gini(S)定义为： Gini（S）=1-ΣPj2，Pj是S中第j类数据的频率。如果一个划分将数据集D分成两个子集D1和D2。则分割后的Ginisplit是： Ginisplit=|D1|/|D|Gini(D1)+|D2|/|D|Gini(D2) 提供最小Ginisplit 就被选择作为分割的标准。可以证明，Gini越小，信息增益越大。 1.SLIQ算法的扩展性。 2.最优分之的选择问题。 2.1.连续属性的分支选择。 2.1.1.预排序。 2.1.2.计算最佳分割。 2.1.3.选择分支属性生成子节点并更新类表。 2.1.4.决策树结束构建。 2.1.5.MDL修剪。 2.1.6.具体实例。 2.2.离散属性的分支选择。 3.总结连续属性的分支选择操作：设v是实数，采用 A≤v 的二叉分支的方法。第一步，与C4.5的处理方法类似，即根据将要分支的属性取值对训练样本进行排序。设属性取值排序后的结果为v1，v2……，vn ，vi 和vi+1之间一般取中间点(vi +vi+1)/2作为分支点，这样需确定n-1个可能的分支。因为每次计算都需要排序，所以这项操作的代价极大。解决： SLIQ在树的构建阶段是用预排序技术以减少计算连续属性的代价。 1.SLIQ算法的扩展性。 2.最优分之的选择问题。 2.1.连续属性的分支选择。 2.1.1.预排序。 2.1.2.计算最佳分割。 2.1.3.选择分支属性生成子节点并更新类表。 2.1.4.决策树结束构建。 2.1.5.MDL修剪。