聚类详解.ppt

聚类方法 北京10月机器学习班 邹博 2014年11月1日 温故,以知新 最大熵模型,是极具发展潜力的模型。熵作为不确定性的度量,在目标函数的建立中常见使用。 如:决策树的建立过程中,对特征的选择。 Logistic回归建立的对数似然函数,是凹函数 二阶导Hessian矩阵半负定 使用梯度上升得到的解,是全局最优解 回归分析的一个具体示例 三维空间各项异性椭球的建立 Logistic回归参数估计 假定: 对数似然函数 主轴的设置 副轴的设置 三维椭球和自动套合 本次目标 掌握K-means聚类的思路和使用条件 了解层次聚类的思路和方法 理解密度聚类并能够应用于实践 DBSCAN 密度最大值聚类 掌握谱聚类的算法,初步理解谱聚类的内涵 聚类的定义 聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小 无监督 向量间相似度计算的方法 欧式距离(闵可夫斯基距离) 杰卡德相似系数 余弦相似度(cosine similarity) 聚类的基本思想 给定一个有N个对象的数据集,划分聚类技术将构造数据的k个划分,每一个划分代表一个簇,k≤n。也就是说,聚类将数据划分为k个簇,而且这k个划分满足下列条件: 每一个簇至少包含一个对象 每一个对象属于且仅属于一个簇 基本思想:对于给定的k,算法首先

文档评论(0)

1亿VIP精品文档

相关文档