- 1、本文档共55页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
非监督学习
聚类分析
张文生 研究员
中国科学院自动化研究所
监督学习
在具有标签的样本集基础上,学生对输入变量X推断输
出变量Y ,教师对学生的答案进行评判
设Pr(X,Y)是随机变量(X,Y )的概率密度,监督学习
估计条件概率密度Pr(Y|X),一般可以用位置参数表示为
µ(x ) arg min EY |X L(Y ,θ)
θ
对监督学习算法的有效性有客观的评价标准,如错误
率、交叉验证
非监督学习
仅有输入变量X ,没有输出变量
设Pr(X)是随机变量X 的概率密度,要直接推断Pr(X)
的性质:对低维情况用非参数方法直接估计Pr(X) ;对高
维情况假设为简单模型或者推断Pr(X) 的简单性质
对非监督学习算法尚没有评价标准,在推导算法的同时
需要对其的结果进行合理的解释
菜篮子分析
设商店有P种商品,对应于购物单上的变量
X 1 ,Λ X p , X j ∈{0 ,1},
对于观测i ,如果第j种商品在交易中售出,则 xij 1 ,
反之 xij 0 ;菜篮子分析的目标是寻找数据中最频繁
出现的变量X (X 1 ,Λ , X p ) 的联合值
有利于货物存贮,商品促销,商品目录设计及消费群体分类
原型方法
• 训练数据由N个数对(x ,g ), …,(x ,g )组成,其中,g 是
1 1 N N i
{1,2,…N}中取值的类标号
• 用特征空间中的点表示训练数据,除了1-最近邻分类外,通常
这些原型都不是训练样本中的例子
• 每个原型都有一个相关连的类标号,查询点被分类到最近原型
所在的类
• 将每个特征标准化,使之在训练样本上具有均值0和方差1
• 如果原型被恰当定位以捕捉每个类的分布,那么这些方法可能
是非常有效的
• 主要挑战:使用多少个原型,把它们放在什么位置
–根据原型选择的数量和方式,这些方法各有不同
聚类分析
• 聚类分析也称数据分割
• 把一个对象集合分组或分割为子集或族,使得每一个族内部的对象之
间的相关性比它们与其它族中对象的相关性更紧密
• 把族整理为自然的层次结构
• 用于形成描述性统计数据,数据包含不同的子组且每个子组
有实质上不同的对象
• 核心是个体对象之间的相似度量,对不同的目标可以定义不
同的损失函数或者代价函数
邻近矩阵
•聚类分析中的数据可以是对象本身,也可以用每对对
象间的相似性来表示
• 假定邻近矩阵是一个表示相似性的对称矩阵,它对
角线上的元素为零,不对称的相似性矩阵D用 (D +DT )/2
来代替
基于属性的相异度
在聚类算法中要计算相 异度矩阵,需要度量每 对对象
之间的的差异度,就必 须定义每个属性值之间 的差异度
d (x , x ′ )。
j ij i j
定量型变量:用属性值 之间差的绝对值的单调 递增函数
d (x i , x i ′) l (| x i −x i ′ |);
序数型变量:用指定的 原始值的顺序来替换它 们的 个值
M
i −1/ 2
, i 1,Λ , M ;
M
分类型变量:必须明确 地描述每对值之间的差 异度,对M
个取值的情况,可以通 过M ×M 的矩阵来定义,
L ′ L ′ , L 0, L
您可能关注的文档
- 第一章 Hybrid Deep Learning for Face Verification混合深度学习人脸验证.pdf
- 时代光华学习课程:成功领导六种思维方法 考试题汇编.doc
- 第七章 AutoCAD2005应用教程.ppt
- 基于共享经济及社交网络的Airbnb及Uber模式研究综述.pdf
- 第七章 2016管理类联考逻辑真题-—华是名师孙勇解析.pdf
- 第一章 2017考研资料-人大国际关系专业考研真题考试资料辅导课程班.pdf
- 集团管控咨询(新)介绍.pdf
- 第5章 育明考研:北京师范大学社会学考研历年真题(2002-2007).pdf
- 数字化学习系统-01幻灯片.ppt
- 江苏国税网上申报6常见问题教学.doc
- 媒体融合趋势下2025年新闻传播真实性与公信力:新媒体传播伦理与规范研究报告.docx
- 2025年旅游地产项目可持续发展政策与法规研究报告.docx
- 医药企业研发外包(CRO)模式在药物研发过程中的知识产权保护策略报告.docx
- 教育精准扶贫项目实施过程中的社会影响评估报告.docx
- 教育大数据在2025年教育行业数据驱动数据整合中的应用研究.docx
- 直播电商主播影响力与2025年跨界合作营销策略报告.docx
- 物流运输行业智能革命2025:自动驾驶卡车应用前景及挑战报告.docx
- 聚焦2025年,公众参与视角下环境影响评价机制优化与绿色发展理念传播.docx
- 2025年页岩气开采市场政策法规与市场影响研究报告.docx
- 2025年个人养老金制度对跨境电商投资市场的机遇与挑战研究报告.docx
文档评论(0)