- 12
- 0
- 约1.33千字
- 约 17页
- 2021-07-05 发布于湖北
- 举报
归纳算法可扩展性算法研究综述 主讲人:蔡伟杰 可扩展性研究综述 为什么需要进行可扩展性研究 1训练集大,准确率上升 2为了寻找到小事件情况 3其他需要 多大的数据量? 100M-1G 可扩展性研究综述 什么是可扩展性? 时间复杂度: 和记录个数、属性之间的关系。 对空间的需求: 避免超过主存的情况。 模型结果的质量: 质量不能明显的降低。 可扩展性研究综述 可扩展性方法分类: 设计一个快速算法 限制模型空间 、强大的启发式搜索 、算法、编程上的优化 、并行方法 数据分片 选择一个实例子空间 、选择一个属性子空间 、对子空间顺序进行处理 、对子空间并行进行处理 关系性表达 用关系的方式表达数据 、将数据挖掘整合到数据库管理中 可扩展性研究综述 设计一个快速算法: 算法时间复杂度容忍极限 O(e3/2) 数据挖掘就是在一个模型空间中寻找某个模型,该模型在某些标准下表现得很好。 可扩展性研究综述 限制模型搜索的空间 线形回归方法、简单神经元、单层决策树(decision stumps)。 搜索空间小而且效果也不坏。 可扩展性研究综述 强大的启发式搜索: 大数据量情况,不允许生成多个模型之后再进行选择 决策树分而治之的方法:ID3、C4.5复杂度O(ea2)。 规则集(rule sets)。但是其效率较差O(e3)甚至更高。 MetaDENDRAL-st
您可能关注的文档
最近下载
- 四川省成都市温江区2024-2025学年八年级下学期期末考试数学试卷(解析版).pdf VIP
- 精品解析:四川省成都市温江区2024-2025学年八年级下学期期末考试物理试题(原卷版).docx VIP
- 精品解析:四川省成都市温江区2024-2025学年八年级下学期期末考试物理试题(解析版).docx VIP
- 我在现场.PDF VIP
- 7.2.2 东南亚(第2课时)-【链接同步】2022-2023学年七年级下学期地理同步精品课件(人教版).pptx VIP
- 7.2.2+东南亚(第2课时)-2022-2023学年七年级地理下册同步探究教学课件(人教版).pptx VIP
- 制糖行业节能减排技术路线和环境保护.pptx VIP
- 四川省成都市温江区2024-2025学年八年级下学期期末考试数学试卷【含答案】.pdf
- (5.9.2)--翻转课补充课件-第18讲-指针(二)--指针和一维数组.ppt VIP
- 5.19《人的消化器官》教学设计 2026苏教版科学三年级下册.pdf VIP
原创力文档

文档评论(0)