归纳算法可扩展性算法.pptVIP

  • 12
  • 0
  • 约1.33千字
  • 约 17页
  • 2021-07-05 发布于湖北
  • 举报
归纳算法可扩展性算法 研究综述 主讲人:蔡伟杰 可扩展性研究综述 为什么需要进行可扩展性研究 1训练集大,准确率上升 2为了寻找到小事件情况 3其他需要 多大的数据量? 100M-1G 可扩展性研究综述 什么是可扩展性? 时间复杂度: 和记录个数、属性之间的关系。 对空间的需求: 避免超过主存的情况。 模型结果的质量: 质量不能明显的降低。 可扩展性研究综述 可扩展性方法分类: 设计一个快速算法 限制模型空间 、强大的启发式搜索 、算法、编程上的优化 、并行方法 数据分片 选择一个实例子空间 、选择一个属性子空间 、对子空间顺序进行处理 、对子空间并行进行处理 关系性表达 用关系的方式表达数据 、将数据挖掘整合到数据库管理中 可扩展性研究综述 设计一个快速算法: 算法时间复杂度容忍极限 O(e3/2) 数据挖掘就是在一个模型空间中寻找某个模型,该模型在某些标准下表现得很好。 可扩展性研究综述 限制模型搜索的空间 线形回归方法、简单神经元、单层决策树(decision stumps)。 搜索空间小而且效果也不坏。 可扩展性研究综述 强大的启发式搜索: 大数据量情况,不允许生成多个模型之后再进行选择 决策树分而治之的方法:ID3、C4.5复杂度O(ea2)。 规则集(rule sets)。但是其效率较差O(e3)甚至更高。 MetaDENDRAL-st

文档评论(0)

1亿VIP精品文档

相关文档