- 1、本文档共26页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
河南泥鳅SLIQ一种快速可伸缩分类器ManishMehta
SLIQ:一种快速可伸缩分类器Manish Mehta, Rakesh Agrawal, Jorma RissanenIBM Almaden Research Center, 1996 报告人:郭新涛 2003.03.29 内容摘要 决策树算法 SLIQ算法 数据结构 预排序与广度优先增长策略 种类型字段的最佳子集生成方法 MDL剪枝 SLIQ性能评估 1. 决策树算法 决策树算法 SLIQ算法 数据结构 预排序与广度优先增长策略 种类型字段的最佳子集生成方法 MDL剪枝 SLIQ性能评估 1. 决策树算法 什么是分类(Classification)? 训练集 待测试样本集 可伸缩性(Scalability) 大多数分类算法面临的共同问题:训练集受内存容量的限制。 算法可伸缩性的优势:更高的准确性 设计目标:一个可伸缩的分类器 1. 决策树算法 什么是决策树(Decision Tree)? 决策树的优点 与其他分类方法相比相对较快 容易转化为分类规则,也容易转化为SQL查询 近似的或者更好的准确度 1. 决策树算法 算法 建树阶段 MakeTree (Training Data T) Partition (T);Partition (Data S) if (all points in S are in the same class) then return; evaluate splits for each attribute A Use best split found to partition S into S1 and S2; Partition (S1); Partition (S2); 剪枝阶段 为什么剪枝:训练数据中的“噪声”影响最终模型的准确性。这些错误的枝条将导致利用模型时的分类错误。 剪枝的方法:去除那些导致错误的枝条,在可能的自述中挑选出错率最小的字树。 1. 决策树算法 可伸缩性问题研讨(1) 设计目标:一个可伸缩的、能够处理大数据集的决策树 以前的可伸缩性方案 数据采样 连续属性的离散化 数据分成若干小块,分别构建决策树,然后综合成一棵最终的树 面临的问题:降低了准确性 决策树算法 可伸缩性问题研讨(2) 建树阶段 关键:提高“确定最佳分裂(Best Split )”的可伸缩性 分裂指标举例 ,计算开销不大 数值型字段,最佳分裂型如 ,开销主要是排序 种类型字段,最佳分裂型如 ,开销主要是寻找最佳的子集(遍历所有子集,时间复杂度为指数级)。 1. 决策树算法 可伸缩性问题研讨(3) 剪枝阶段 剪枝:选择导致最低错误率的子树 方案一:使用原有的测试数据 方案二:使用独立的数据集 取样困难 降低生成的模型的准确率 理想的剪枝方法:快速得到简洁而且准确的决策树 2. SLIQ算法 决策树算法 SLIQ算法 数据结构 预排序与广度优先增长策略 种类型字段的最佳子集生成方法 MDL剪枝 SLIQ性能评估 2. SLIQ算法 SLIQ的优异性能 可伸缩性良好 缩短学习时间 处理常驻磁盘的大数据集的能力:对训练数据的记录个数和训练样本的属性个数没有过多的限制 处理大数据集,带来结果的准确性 新的剪枝方法 更简洁、准确的结果 2. SLIQ算法 SLIQ的关键词 预排序 广度优先增长策略 常驻磁盘的数据集 快速寻找子集方法 MDL剪枝 2. SLIQ算法 数据结构 属性表(Attribute List) 每个属性有一个属性表 有必要的话,属性表可以写回磁盘 类表(Class List) 仅有一张类表,类表必须常驻内存 类表第n项,存放第n条记录的类标签。 2. SLIQ算法 数据结构 树结点 内部节点记录必要的分类信息 叶子节点代表训练集的一块数据,也就是一个类别 每个节点都有一个类直方图,用来统计分类所需的必要的类别分布的信息。 2. SLIQ算法 预排序与广度优先增长策略 预排序的例子 2. SLIQ算法 预排序与广度优先增长策略 计算最佳分割的算法EvaluateSplits() for each attribute A do traverse attribute list of A for each value v in the attribute list do find the corresponding entry in the class list, and hence the corresponding class
您可能关注的文档
- 求职信简历.ppt
- 求职信简历等各类书信的写作.ppt
- 求职简历的写作.ppt
- 水滴的大小位置等要尽量保持相同.ppt
- 求解运动学问题举例.ppt
- 求解一元一次方程公开课.ppt
- 汇丰银行风险管理.ppt
- 汇报提纲一立意二概况三组织四体会.ppt
- 汇率政策.ppt
- 汇报提纲.ppt
- 教科版(2017秋)科学二年级上册2.6 做一顶帽子 教学设计.docx
- 河北高频考点专训四 质量守恒定律的应用教学设计---2024-2025学年九年级化学人教版(2024)上册.docx
- 大单元教学【核心素养目标】6.3 24时计时法教学设计 人教版三年级下册.docx
- 河南省商城县李集中学2023-2024学年下学期九年级历史中考模拟八(讲评教学设计).docx
- 第18章 第25课时 正方形的性质2023-2024学年八年级下册数学课时分层作业教学设计( 人教版).docx
- Module 8 模块测试 教学设计 2024-2025学年英语外研版八年级上册.docx
- 2024-2025学年小学数学五年级下册浙教版教学设计合集.docx
- 2024-2025学年小学劳动四年级下册人民版《劳动》(2022)教学设计合集.docx
- 2024-2025学年小学数学三年级上册冀教版(2024)教学设计合集.docx
- 2024-2025学年高中生物学必修1《分子与细胞》人教版教学设计合集.docx
文档评论(0)