分类挖掘是一个在统计学和机器学习的领域也被广为研究的问题,并提出了很多算法,但是这些算法都是内存驻留的 可伸缩性问题:要求以合理的速度对数以百万计的样本和数以百计的属性的进行分类挖掘 由大型数据库构造决策树 首先将样本划分为子集,每个子集可以放在内存中 然后由每个自己构造一颗决策树 输出的分类法将每个子集的分类法组合在一起 (其他方法包括SLIQ, SPRINT,RainForest等等) 贝叶斯分类利用统计学中的贝叶斯定理,来预测类成员的概率,即给定一个样本,计算该样本属于一个特定的类的概率。 朴素贝叶斯分类:假设每个属性之间都是相互独立的,并且每个属性对非类问题产生的影响都是一样的。 后向传播是一种神经网络学习算法;神经网络是一组连接的输入/输出单元,每个连接都与一个权相连。在学习阶段,通过调整神经网络的权,使得能够预测输入样本的正确标号来学习。 优点 预测精度总的来说较高 健壮性好,训练样本中包含错误时也可正常工作 输出可能是离散值、连续值或者是离散或量化属性的向量值 对目标进行分类较快 缺点 训练(学习)时间长 蕴涵在学习的权中的符号含义很难理解 很难根专业领域知识相整合 使用一种非线性的映射,将原训练数据映射到较高的维 一个数据被认为是p维向量,数据在这个p维向量空间中被分为两类;SVM的目的是找到一个p-1维的超平面,来划分p维向量空间的数据 在新的维上,它搜索线性最
原创力文档

文档评论(0)