聚类算法简介研讨
聚类算法简介 什么是聚类? 聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小; 为什么需要聚类? 对相似的文档或超链接进行聚类,由于类别数远小于文档数,能够加快用户寻找相关信息的速度; 聚类图示 聚类中没有任何指导信息,完全按照数据的分布进行类别划分 什么是分类? 数据集合 ,类别标记集合 数据集合: 训练数据 待分类数据 已知 问题: 方法:根据训练数据获得类别划分标准 分类图示 训练数据 待分类数据 聚类与分类的区别 有类别标记和无类别标记; 有监督与无监督; (有训练语料与无训练语料) Train And Classification (分类); No Train(聚类); 聚类的基本要素 定义数据之间的相似度; 聚类有效性函数(停止判别条件); 1. 在聚类算法的不同阶段会得到不同的类别划分结果,可以通过聚类有效性函数来判断多个划分结果中哪个是有效的; 2. 使用有效性函数作为算法停止的判别条件,当类别划分结果达到聚类有效性函数时即可停止算法运行; 类别划分策略(算法); 通过何种类别划分方式使类别划分结果达到有效性函数; 相似度 Euclidean Distance 数据表示为向量,向量中某一维对
您可能关注的文档
最近下载
- 江苏海安农村商业银行股份有限公司 2013 年年度报告摘要.pdf VIP
- 平台经济培训课件下载.ppt VIP
- 三国志姜维传简体完整版完美攻略.docx VIP
- 锅炉课件共28张PPT).pptx VIP
- T_AOPA 0063—2024(电动航空器高压配电系统技术规范).pdf VIP
- 【通力KONE电梯资料】CTP-05.70.S2A_随行电缆.pptx VIP
- 某纯电动汽车两档变速器结构设计.doc
- 第四单元 村落、城镇与居住环境(复习课件)高二历史(选择性必修2:经济与社会生活).pptx VIP
- 晋升高级卫生专业技术职称考试-公共卫生真题集.doc VIP
- 大理工会考试题型及答案.docx VIP
原创力文档

文档评论(0)