浙江大学王灿《数据挖掘》课程分类和预测副本讲义.ppt

浙江大学王灿《数据挖掘》课程分类和预测副本讲义.ppt

* Data Mining: Concepts and Techniques * SVM—当数据是线性可分的时候 m 设给定的数据集 D 为 (X1, y1), …, (X|D|, y|D|), 其中Xi是训练元组,具有相关联的类标号yi。 可以画出无限多条分离直线(或超平面)将类+1的元组与类-1的元组分开,我们想找出“最好的”那一条 (对先前未见到的元组具有最小分类误差的那一条)。 SVM 要搜索具有最大边缘的超平面,即最大边缘超平面 (MMH) 其他分类方法 k-最临近分类 给定一个未知样本,k-最临近分类法搜索模式空间,找出最接近未知样本的k个训练样本;然后使用k个最临近者中最公共的类来预测当前样本的类标号 基于案例的推理 样本或案例使用复杂的符号表示,对于新案例,先检测是否存在同样的训练案例;如果找不到,则搜索类似的训练案例 遗传算法 结合生物进化思想的算法 粗糙集方法 模糊集方法 允许在分类规则中定义“模糊的”临界值或边界 什么是预测? 预测是构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值空间。 预测和分类的异同 相同点 两者都需要构建模型 都用模型来估计未知值 预测当中主要的估计方法是回归分析 线性回归和多元回归 非线性回归 不同点 分类法主要是用来预测类标号(分类属性值) 预测法主要是用来估计连续值(量化属性值) 线性回归、多元回归和非线性回归 线性回

文档评论(0)

1亿VIP精品文档

相关文档