- 1、本文档共29页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘 王成 (副教授) 华侨大学计算机科学与技术学院 主要内容 实例、特征及特征向量 差异度度量 k-均值算法 实例 输入数据集中的每一条数据都是一个样本(example),而我们通常用更专业的术语“实例”(instance)来表示 例如,下表中一共有6个实例 注: 各个数字代表喜欢的程度,范围是0-10,0表示不喜欢,10表示非常喜欢 特征及特征向量 特征(feature)也称作属性(attribute) 每一个单一的、独立的实例是由一组固定的和预先定义的特征或属性作为输入提供给机器学习的 实例就好比是数据库表中的行,而属性是列 特征及特征向量 学生B的特征是? 学生B: ( 4, 8, 0, 1 ) 对零食喜欢程度 对韩剧喜欢程度 对篮球喜欢程度 对游戏喜欢程度 特征值 学生B的特征向量 4维特征向量 特征值的类型 数值(numeric)属性 实数或整数值,例如前面学生成绩例子中的学生成绩属性即是一个数值属性。 分类(categorical)属性 从一个预先定义的有限的可能值的集合中取值; 有时也称作名目(norminal)属性、枚举(enumerated)属性,或离散(discrete)属性。 这类属性值是一些独特的符号,作为标签或名字使用。 例如,天气属性是一个分类属性,它的值只能是晴、多云、雨等。 布尔(boolean)属性 分类属性的一个特例,只有true和false,或yes和no两个可选值。 如何让程序自动对学生分组? 如果两个学生的爱好比较类似,例如都喜欢运动,可以分为一组 如果有一种方式来度量两个学生的爱好差异程度,那我们可以将差异小的学生分为同一组,而将差异大的分为不同组 主要内容 实例、特征及特征向量 差异度度量 k-均值算法 如何度量各个学生的差异程度? 考虑二维的情况 D (0, 2) B (4, 8) C (0, 0) A (8, 8) E (1, 0) F (6, 1) B和D的差异可以用BD之间的距离来表示 如何度量N维特征向量之间的差异? 欧氏距离 欧氏距离 (欧几里得距离,Euclidean distance) N维空间内任意两点 x(x1,...xn) 和 y(y1,...yn) 之间的距离为: 欧氏距离 d(A, B) = d(A, D) = d(C, E) = ? 小练习: 欧氏距离 为什么可以使用欧氏距离来体现学生之间的差异? 用于体现学生数据之间的差异的距离公式需要满足如下条件: 1. 计算得到的距离不能为负数 2. 学生特征数据差异越大,距离也要越大,反之,差异越小,距离也要越小 3. 当且仅当学生特征数据相同时,距离才为0,否则大于0 4. 学生A和学生B的距离应等于学生B和学生A的距离(对称性) 还有其它度量相异度的方法吗? 曼哈顿距离 闵可夫斯基距离 欧氏距离和曼哈顿距离可以看做是闵可夫斯基距离在p=2和p=1下的特例 主要内容 实例、特征及特征向量 差异度度量 k-均值算法 k-均值算法 (k-Means) C4.5 k-Means SVM Apriori EM PageRank AdaBoost kNN Na?ve Bayes CART 十大数据挖掘算法之一 一种聚类算法,属无监督学习 k-均值算法 (k-Means) 聚类算法将数据点分为多个簇(cluster) k-menas算法中,簇的中心叫做簇质心或中心点(centroid),质心不一定是一个真实存在的数据点 把每个簇想像成一块有质量的物体,质心即这块物体的质量中心 k-means要求事先指定数据要分为几组,例如可指定分为3组,这里的3即算法名称中k的含义,此时 k = 3 图: 4个簇及其质心 k-均值算法 (k-Means) 1. 随机挑选3个点作为初始簇质心(centroid) 指定 k = 3 (即要将数据点分成3组) 2. 遍历所有点,各自加入距离最近的簇 3. 调整各个簇的的质心 4. 回到第2步 中止条件:簇不再发生变化 第2步如何找到最近的簇? 遍历各簇质心,计算欧氏距离,距离最小的即最近的 第3步如何调整质心? 取簇中各点的算术平均值作为新质心的坐标即可 + + + + + + (1, 4) (6, 0) (3, 2) (0, 8) (6, 4) (8, 4) (1, 8) (8, 7) (6, 8) (7, 9) (7,8) (1.25, 5.5) (6.67, 2.67) (5.75, 2.5) + + (0.67, 6.67) 如何评价聚类结果的质量? 好的聚类结果的簇内数据点比较紧凑,簇间相距大 即簇内中各数据点离
文档评论(0)