胡晓晖《数据仓库与数据挖掘》第一章 数据挖掘概述.pptVIP

  • 20
  • 0
  • 约6.36千字
  • 约 78页
  • 2018-07-06 发布于浙江
  • 举报

胡晓晖《数据仓库与数据挖掘》第一章 数据挖掘概述.ppt

1.统计方法 统计方法是从事物的外在数量上的表现去推断该事物可能的规律性. 最初总是从数量表现上通过统计分析看出一些线索,然后提出一定的假说或学说,做进一步深入的理论研究. (1)传统统计方法 传统的统计学所研究的主要是渐进理论,即当样本趋向无穷多时的统计性质.统计方法主要考虑测试预想的假设是否与数据模型拟合. 统计方法的处理过程分: 搜集数据:采样、实验设计 分析数据:建模、知识发现 进行推理:预测,分类   常见的统计方法 回归分析(多元回归) 判别分析(贝叶斯判别、费歇尔判别、非参 数判别等) 聚类分析(系统聚类、动态聚类等) 探索性分析(主元分析法,相关分析法等) (2)模糊集 引入模糊逻辑利用隶属函数(0-1)之间来表示 某个特定值属于某个类别的程度;此时,可引入模糊逻辑来描述“高收入”这个概念。 2. 机器学习 Simon对学习的定义是:”如果一个系统能够通过执行某种过程而改进它的性能. 这就是学习” 目前常用的机器学习方法 (1)决策树 决策树是一种分类方法,起源于概念学习系统。有名的决策树方法有ID3,C4.5 ,还有CART和Assistant. 决策树构造的输入是一组带有类别标记的数据,构造的结果是一棵二叉或多叉树。树中节点可分为两类:决策节点和叶子节点。 年龄? 信用等级? 学生

文档评论(0)

1亿VIP精品文档

相关文档