非监督学习----聚类分析指南.pdfVIP

  1. 1、本文档共55页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
非监督学习 聚类分析 张文生 研究员 中国科学院自动化研究所 监督学习 在具有标签的样本集基础上,学生对输入变量X推断输 出变量Y ,教师对学生的答案进行评判 设Pr(X,Y)是随机变量(X,Y )的概率密度,监督学习 估计条件概率密度Pr(Y|X),一般可以用位置参数表示为 µ(x ) arg min EY |X L(Y ,θ) θ 对监督学习算法的有效性有客观的评价标准,如错误 率、交叉验证 非监督学习 仅有输入变量X ,没有输出变量 设Pr(X)是随机变量X 的概率密度,要直接推断Pr(X) 的性质:对低维情况用非参数方法直接估计Pr(X) ;对高 维情况假设为简单模型或者推断Pr(X) 的简单性质 对非监督学习算法尚没有评价标准,在推导算法的同时 需要对其的结果进行合理的解释 菜篮子分析 设商店有P种商品,对应于购物单上的变量 X 1 ,Λ X p , X j ∈{0 ,1}, 对于观测i ,如果第j种商品在交易中售出,则 xij 1 , 反之 xij 0 ;菜篮子分析的目标是寻找数据中最频繁 出现的变量X (X 1 ,Λ , X p ) 的联合值 有利于货物存贮,商品促销,商品目录设计及消费群体分类 原型方法 • 训练数据由N个数对(x ,g ), …,(x ,g )组成,其中,g 是 1 1 N N i {1,2,…N}中取值的类标号 • 用特征空间中的点表示训练数据,除了1-最近邻分类外,通常 这些原型都不是训练样本中的例子 • 每个原型都有一个相关连的类标号,查询点被分类到最近原型 所在的类 • 将每个特征标准化,使之在训练样本上具有均值0和方差1 • 如果原型被恰当定位以捕捉每个类的分布,那么这些方法可能 是非常有效的 • 主要挑战:使用多少个原型,把它们放在什么位置 –根据原型选择的数量和方式,这些方法各有不同 聚类分析 • 聚类分析也称数据分割 • 把一个对象集合分组或分割为子集或族,使得每一个族内部的对象之 间的相关性比它们与其它族中对象的相关性更紧密 • 把族整理为自然的层次结构 • 用于形成描述性统计数据,数据包含不同的子组且每个子组 有实质上不同的对象 • 核心是个体对象之间的相似度量,对不同的目标可以定义不 同的损失函数或者代价函数 邻近矩阵 •聚类分析中的数据可以是对象本身,也可以用每对对 象间的相似性来表示 • 假定邻近矩阵是一个表示相似性的对称矩阵,它对 角线上的元素为零,不对称的相似性矩阵D用 (D +DT )/2 来代替 基于属性的相异度 在聚类算法中要计算相 异度矩阵,需要度量每 对对象 之间的的差异度,就必 须定义每个属性值之间 的差异度 d (x , x ′ )。 j ij i j 定量型变量:用属性值 之间差的绝对值的单调 递增函数 d (x i , x i ′) l (| x i −x i ′ |); 序数型变量:用指定的 原始值的顺序来替换它 们的 个值 M i −1/ 2 , i 1,Λ , M ; M 分类型变量:必须明确 地描述每对值之间的差 异度,对M 个取值的情况,可以通 过M ×M 的矩阵来定义, L ′ L ′ , L 0, L

您可能关注的文档

文档评论(0)

0520 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档