基本概念及kMeans算法 课件.pptVIP

  • 6
  • 0
  • 约3.07千字
  • 约 27页
  • 2020-07-28 发布于天津
  • 举报
数据挖掘 王成 (副教授) 华侨大学计算机科学与技术学院 主要内容 ? 实例、特征及特征向量 ? 差异度度量 ? k- 均值算法 实例 ? 输入数据集中的每一条数据都是一个样本 (example) ,而我 们通常用更专业的术语“实例” (instance) 来表示 ? 例如,下表中一共有 6 个实例 注 : 各个数字代表喜欢的程度,范围是 0-10 , 0 表示不喜欢, 10 表示非常喜欢 特征及特征向量 ? 特征 (feature) 也称作属性 (attribute) ? 每一个单一的、独立的实例是由一组固定的和预先定义的 特征或属性作为输入提供给机器学习的 ? 实例就好比是数据库表中的行,而属性是列 特征及特征向量 ? 学生 B 的特征是 ? 学生 B : ( 4 , 8 , 0 , 1 ) 对零食喜欢程度 对韩剧喜欢程度 对篮球喜欢程度 对游戏喜欢程度 特征值 学生 B 的特征向量 4 维特征向量 特征值的类型 数值 (numeric) 属性 实数或整数值,例如前面学生成绩例子中的学生成绩属性即是一个数 值属性。 分类 (categorical) 属性 从一个预先定义的有限的可能值的集合中取值; 有时也称作名目 (norminal) 属性、枚举 (enumerated) 属性,或离散 (discrete) 属性。 这类属性值是一些独特的符号,作为标签或名字使用。 例如,天气属性是一个分类属性,它的值只能是晴、多云、雨等。 布尔 (boolean) 属性 分类属性的一个特例,只有 true 和 false ,或 yes 和 no 两个可选值。 如何让程序自动对学生分组? ? 如果两个学生的爱好比较类似,例如都喜欢运动,可以分 为一组 ? 如果有一种方式来度量两个学生的爱好差异程度,那我们 可以将差异小的学生分为同一组,而将差异大的分为不同 组 主要内容 ? 实例、特征及特征向量 ? 差异度度量 ? k- 均值算法 如何度量各个学生的差异程度? ? 考虑二维的情况 D (0, 2) B (4, 8) C (0, 0) A (8, 8) E (1, 0) F (6, 1) B 和 D 的差异可以用 BD 之间的距离来表示 如何度量 N 维特征向量之间的差异? 欧氏距离 ? 欧氏距离 ( 欧几里得距离, Euclidean distance) N 维空间内任意两点 x(x 1 ,...x n ) 和 y(y 1 ,...y n ) 之间的 距离为: 欧氏距离 d(A, B) = d(A, D) = d(C, E) = ? 小练习: 17 ) 1 0 ( ) 0 0 ( ) 8 8 ( ) 4 8 ( 2 2 2 2 ? ? ? ? ? ? ? ? 2 2 2 2 2 2 2 2 2 8 6 8 ) 2 0 ( ) 8 0 ( ) 2 8 ( ) 0 8 ( ? ? ? ? ? ? ? ? ? ? ? 30 ) 5 0 ( ) 8 10 ( ) 0 0 ( ) 1 0 ( 2 2 2 2 ? ? ? ? ? ? ? ? 欧氏距离 ? 为什么可以使用欧氏距离来体现学生之间的差异? 用于体现学生数据之间的差异的距离公式需要满足如下条件: 1. 计算得到的距离不能为负数 2. 学生特征数据差异越大,距离也要越大,反之,差异越小,距离也要越小 3. 当且仅当学生特征数据相同时,距离才为 0 ,否则大于 0 4. 学生 A 和学生 B 的距离应等于学生 B 和学生 A 的距离(对称性) 还有其它度量相异度的方法吗? ? 曼哈顿距离 | | ... | | | | ) , ( 2 2 1 1 n n y x y x y x y x d ? ? ? ? ? ? ? 闵可夫斯基距离 p p n n p p y x y x y x y x d | | ... | | | | ) , ( 2 2 1 1 ? ? ? ? ? ? ? 欧氏距离和曼哈顿距离可以看做是闵可夫斯基距离在 p=2 和 p=1 下的特例 主要内容 ? 实例、特征及特征向量 ? 差异度度量 ? k- 均值算法 k- 均值算法 (k-Means) C4.5 k-Means SVM Apriori EM PageRank AdaBoost kNN Na?ve Bayes CART 十大数据挖掘算法之一 ? 一种聚类算法,属无监督学习 k- 均值算法 (k-Means) ? 聚类算法将数据点分为多个簇 (cluster) ? k-menas 算法中,簇的中心叫 做簇质心或中心点 (centroid) , 质心不一定是一个真实存在的 数据点 ? 把每个簇想像成一块有质量的 物体,质心即这块物体的质量 中心 ? k-means 要求事先指定数据要 分为几

文档评论(0)

1亿VIP精品文档

相关文档