归纳算法可扩展性算法、研究综述.ppt

下载文档 降价啦

2
0
约1.33千字
约 17页
2017-01-31 发布于湖北
举报
版权申诉
保障服务

归纳算法可扩展性算法、研究综述.ppt

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

归纳算法可扩展性算法、研究综述

归纳算法可扩展性算法研究综述主讲人:蔡伟杰可扩展性研究综述为什么需要进行可扩展性研究 1训练集大,准确率上升 2为了寻找到小事件情况 3其他需要多大的数据量? 100M-1G 可扩展性研究综述什么是可扩展性? 时间复杂度: 和记录个数、属性之间的关系。对空间的需求：避免超过主存的情况。模型结果的质量：质量不能明显的降低。可扩展性研究综述可扩展性方法分类：设计一个快速算法限制模型空间、强大的启发式搜索、算法、编程上的优化、并行方法数据分片选择一个实例子空间、选择一个属性子空间、对子空间顺序进行处理、对子空间并行进行处理关系性表达用关系的方式表达数据、将数据挖掘整合到数据库管理中可扩展性研究综述设计一个快速算法：算法时间复杂度容忍极限 O(e3/2) 数据挖掘就是在一个模型空间中寻找某个模型，该模型在某些标准下表现得很好。可扩展性研究综述限制模型搜索的空间线形回归方法、简单神经元、单层决策树（decision stumps）。搜索空间小而且效果也不坏。可扩展性研究综述强大的启发式搜索：大数据量情况，不允许生成多个模型之后再进行选择决策树分而治之的方法：ID3、C4.5复杂度O(ea2)。规则集(rule sets)。但是其效率较差O(e3)甚至更高。 MetaDENDRAL-style rule 可扩展性研究综述算法、编程优化 : 使用有效的数据结构(bit vectors,hash tables,binary search trees)和聪明的编程技巧对MetaDENDRAL-style rule的优化对决策树的优化：充足的统计信息可扩展性研究综述并行处理 : 搜索空间的并行处理 : 使用共享内存多处理器很好的实现了决策树的搜索空间的并行处理。并行匹配：对节点的评估代价是很高的，同时也有很大的并行性。数据分割之后的并行处理可扩展性研究综述数据分割：选择一个子集: 只选择一个子集进行处理：抽样方法：抽样和准确率的关系：主动和被动抽样：可扩展性研究综述数据分割：选择一个属性子空间当前属性选择工作的焦点训练集较小的时候 ,降低结果Overfitting 领域专家的交互 ,选择属性选择足够多的属性 ,再去除可扩展性研究综述数据分割：对子空间顺序进行处理并行计算子空间可扩展性研究综述关系表达挖掘小数据的速度更快；扁平化极大的数据集往往不可行方法：用关系的方式表达数据数据挖掘和数据库管理系统的结合可扩展性研究综述挖掘关系数据：对层次数据的直接挖掘挖掘多表数据库 ILP研究数据以关系方式存的知识发现数据挖掘和DBMS结合将DBMS作为一个简单的数据源将对数据进行计算的部分放入DBMS Cache-Mine 将数据挖掘操作作为一个函数(UDF) 可扩展性研究综述分布式挖掘: 数据量太大，不能存放在本地；数据传输的代价太大；隐私问题，不能无限制的获取数据。 * * 四种和数据库结合方法的比较 * * *