大数据分析与数据挖掘-分类方法.pptVIP

  • 145
  • 0
  • 约2.89万字
  • 约 97页
  • 2018-12-05 发布于四川
  • 举报
* * 分类器性能的评估 保持法和交叉验证是两种基于给定数据随机选样划分的、常用的评估分类方法准确率的技术。 (1)保持法 把给定的数据随机地划分成两个独立的集合:训练集和测试集。通常,三分之一的数据分配到训练集,其余三分之二分配到测试集。使用训练集得到分类器,其准确率用测试集评估。 (2)交叉验证 先把数据随机分成不相交的n份,每份大小基本相等,训练和测试都进行n次。比如,如果把数据分成10份,先把第一份拿出来放在一边用作模型测试,把其他9份合在一起来建立模型,然后把这个用90%的数据建立起来的模型用上面放在一边的第一份数据做测试。这个过程对每一份数据都重复进行一次,得到10个不同的错误率。最后把所有数据放在一起建立一个模型,模型的错误率为上面10个错误率的平均。 * * 第三章 分类方法 内容提要 分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 规则归纳 与分类有关的问题 * * Thank you !!! * * 对分类方法进行比较的有关研究结果表明:简单贝叶斯分类器(称为基本贝叶斯分类器)在分类性能上与决策树和神经网络都是可比的。在处理大规模数据库时,贝叶斯分类器已表现出较高的分类准确性和运算性能。 基本贝叶斯分类器假设一个指定类别中各属性的取值是相互独立的。这一假设也被称为:类别条

文档评论(0)

1亿VIP精品文档

相关文档