- 1、本文档共53页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SLIQ:一种快速可扩展的分类算法
SLIQ:一种快速可扩展的分类算法 讲课人:杨震 1.SLIQ算法的扩展性。 2.最优分之的选择问题。 2.1.连续属性的分支选择。 2.1.1.预排序。 2.1.2.计算最佳分割。 2.1.3.选择分支属性生成子节点并更新类表。 2.1.4.决策树结束构建。 2.1.5.MDL修剪。 2.1.6.具体实例。 2.2.离散属性的分支选择。 3.总结 1.SLIQ算法的扩展性。 2.最优分之的选择问题。 2.1.连续属性的分支选择。 2.1.1.预排序。 2.1.2.计算最佳分割。 2.1.3.选择分支属性生成子节点并更新类表。 2.1.4.决策树结束构建。 2.1.5.MDL修剪。 2.1.6.具体实例。 2.2.离散属性的分支选择。 3.总结 1. SLIQ算法的扩展性 分类算法存在一个问题——不能进行扩展 数据量在急剧增长,训练样本达到数百万是非常普遍的,由于内存及CPU时间的限制,原有的许多算法已经无法处理这些数据。 因此,必须寻找新的方法来解决大数据集的分类问题。 SLIQ使用如下技术提高可扩展性 用预排序技术来减少计算连续属性的代价。 利用贪心算法来确定离散属性的分支。 使用MDL算法修剪树。 1.SLIQ算法的扩展性。 2.最优分之的选择问题。 2.1.连续属性的分支选择。 2.1.1.预排序。 2.1.2.计算最佳分割。 2.1.3.选择分支属性生成子节点并更新类表。 2.1.4.决策树结束构建。 2.1.5.MDL修剪。 2.1.6.具体实例。 2.2.离散属性的分支选择。 3.总结 最优分支的选择问题 最优分支的选择依据于分支指标,分支指标用来给属性的可选分支确定“优良程度”。 分支指标: 熵(ID3和C4.5) 最小Gini指标(CART,SLIQ和SPRINT)。 SLIQ使用Gini指标作为分支指标 定义:对数据集包含n个类的数据集S,Gini(S)定义为: Gini(S)=1-ΣPj2,Pj是S中第j类数据的频率。 如果一个划分将数据集D分成两个子集D1和D2。则分割后的Ginisplit是: Ginisplit=|D1|/|D|Gini(D1)+|D2|/|D|Gini(D2) 提供最小Ginisplit 就被选择作为分割的标准。 可以证明,Gini越小,信息增益越大。 1.SLIQ算法的扩展性。 2.最优分之的选择问题。 2.1.连续属性的分支选择。 2.1.1.预排序。 2.1.2.计算最佳分割。 2.1.3.选择分支属性生成子节点并更新类表。 2.1.4.决策树结束构建。 2.1.5.MDL修剪。 2.1.6.具体实例。 2.2.离散属性的分支选择。 3.总结 连续属性的分支选择 操作: 设v是实数,采用 A≤v 的二叉分支的方法。第一步,与C4.5的处理方法类似,即根据将要分支的属性取值对训练样本进行排序。设属性取值排序后的结果为v1,v2……,vn ,vi 和vi+1之间一般取中间点(vi +vi+1)/2作为分支点,这样需确定n-1个可能的分支。 因为每次计算都需要排序,所以这项操作的代价极大。 解决: SLIQ在树的构建阶段是用预排序技术以减少计算连续属性的代价。 1.SLIQ算法的扩展性。 2.最优分之的选择问题。 2.1.连续属性的分支选择。 2.1.1.预排序。 2.1.2.计算最佳分割。 2.1.3.选择分支属性生成子节点并更新类表。 2.1.4.决策树结束构建。 2.1.5.MDL修剪。
您可能关注的文档
- SDH原理(1 概述).ppt
- 水力学-第二章1(一页两张版本).pdf
- 水力学-学生复习(第2版).pdf
- 水力学与桥涵水文--教案.pdf
- 水力学实验数据处理.pdf
- 水务公共信息平台建设.pdf
- 水力活塞泵模板2016.pdf
- 水力学_第三章.pdf
- 水力压裂裂缝的起裂和扩展.pdf
- 水利水电工程制图标准 (基础制图).pdf
- 美元国际地位的偏相关性分析及其走势预测模型选择--基于Arima-R-Vine-Copula及改进的.pdf
- 第二单元第7课《循环语句》教学设计 2023—2024学年青岛版(2019)初中信息技术第三册.docx
- 第6单元 20 美丽的小兴安岭 优质版2024-2025学年三年级语文上册同步教学设计(统编版).docx
- 八年级地理下册 第6章 第五节 极地地区教学实录 中图版.docx
- 2025毕业实习总结下载版(33篇).docx
- (可编辑)学期安全工作计划.pptx
- 2025植树节活动总结要点范7篇.docx
- 青春之志,扬帆起航.pptx
- 第16课 国家出路的探索与列强侵略的加剧 教学设计 --2024-2025学年高一统编版2019必修中外历史纲要上册.docx
- 青春之志,无畏前行.pptx
文档评论(0)