- 1、本文档共53页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SLIQ:一种快速可扩展的分类算法
SLIQ:一种快速可扩展的分类算法 讲课人:杨震 1.SLIQ算法的扩展性。 2.最优分之的选择问题。 2.1.连续属性的分支选择。 2.1.1.预排序。 2.1.2.计算最佳分割。 2.1.3.选择分支属性生成子节点并更新类表。 2.1.4.决策树结束构建。 2.1.5.MDL修剪。 2.1.6.具体实例。 2.2.离散属性的分支选择。 3.总结 1.SLIQ算法的扩展性。 2.最优分之的选择问题。 2.1.连续属性的分支选择。 2.1.1.预排序。 2.1.2.计算最佳分割。 2.1.3.选择分支属性生成子节点并更新类表。 2.1.4.决策树结束构建。 2.1.5.MDL修剪。 2.1.6.具体实例。 2.2.离散属性的分支选择。 3.总结 1. SLIQ算法的扩展性 分类算法存在一个问题——不能进行扩展 数据量在急剧增长,训练样本达到数百万是非常普遍的,由于内存及CPU时间的限制,原有的许多算法已经无法处理这些数据。 因此,必须寻找新的方法来解决大数据集的分类问题。 SLIQ使用如下技术提高可扩展性 用预排序技术来减少计算连续属性的代价。 利用贪心算法来确定离散属性的分支。 使用MDL算法修剪树。 1.SLIQ算法的扩展性。 2.最优分之的选择问题。 2.1.连续属性的分支选择。 2.1.1.预排序。 2.1.2.计算最佳分割。 2.1.3.选择分支属性生成子节点并更新类表。 2.1.4.决策树结束构建。 2.1.5.MDL修剪。 2.1.6.具体实例。 2.2.离散属性的分支选择。 3.总结 最优分支的选择问题 最优分支的选择依据于分支指标,分支指标用来给属性的可选分支确定“优良程度”。 分支指标: 熵(ID3和C4.5) 最小Gini指标(CART,SLIQ和SPRINT)。 SLIQ使用Gini指标作为分支指标 定义:对数据集包含n个类的数据集S,Gini(S)定义为: Gini(S)=1-ΣPj2,Pj是S中第j类数据的频率。 如果一个划分将数据集D分成两个子集D1和D2。则分割后的Ginisplit是: Ginisplit=|D1|/|D|Gini(D1)+|D2|/|D|Gini(D2) 提供最小Ginisplit 就被选择作为分割的标准。 可以证明,Gini越小,信息增益越大。 1.SLIQ算法的扩展性。 2.最优分之的选择问题。 2.1.连续属性的分支选择。 2.1.1.预排序。 2.1.2.计算最佳分割。 2.1.3.选择分支属性生成子节点并更新类表。 2.1.4.决策树结束构建。 2.1.5.MDL修剪。 2.1.6.具体实例。 2.2.离散属性的分支选择。 3.总结 连续属性的分支选择 操作: 设v是实数,采用 A≤v 的二叉分支的方法。第一步,与C4.5的处理方法类似,即根据将要分支的属性取值对训练样本进行排序。设属性取值排序后的结果为v1,v2……,vn ,vi 和vi+1之间一般取中间点(vi +vi+1)/2作为分支点,这样需确定n-1个可能的分支。 因为每次计算都需要排序,所以这项操作的代价极大。 解决: SLIQ在树的构建阶段是用预排序技术以减少计算连续属性的代价。 1.SLIQ算法的扩展性。 2.最优分之的选择问题。 2.1.连续属性的分支选择。 2.1.1.预排序。 2.1.2.计算最佳分割。 2.1.3.选择分支属性生成子节点并更新类表。 2.1.4.决策树结束构建。 2.1.5.MDL修剪。
文档评论(0)