- 1、本文档共34页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实战医学统计--机器学习之聚类分析
聂志强
前言
小恶魔提利昂,花大量的时间观察人群,他根据特定的特征就能猜测雪伊→whore ,琼恩→hero
又比如 + 公司白领高管
+ TFBOY 90后
召开大数据分析会议,聘请3个领域专家后按组就坐,如何分小组
按照发表论文分组
机器学习系ML ?
距离
视觉散点图→相近点聚类→标签分类
量
数
I
C
S
域
领
机 数理统计系Math ?
算
计 计算机系CS ?
数学领域SCI数量
术语
聚类适用范围
1.设计抽样方案:分层抽样
2.预分析过程:先通过聚类分析达到简化数据的目的,将众多的个体先聚集成比较好处理的几个类别
或子集,然后再进行后续的多元分析。
3.细分市场、个体消费行为划分:先聚类,然后再利用判别分析进一步研究各个群体之间的差异。
聚类本质是描述有用的分类,无P ,只能用“有用性”来判断好用
按照个体的特征将它们分类,使同一类别内的个体具有高的同质性,而类别间则有高的异质性
特征= 空间距离、相似系数
R的聚类包 /web/views/Cluster.html
事先N 类、连续变量、case快速聚类、Z标准化
可case可variable聚类
先共线性诊断后再进行聚类,否则可能区分度不够
Twostep基于模型,kohonen基于网络,knn基于密度
要求高,转置后可聚类variable
two-step k-means hierarchical
聚类对象 随机化记录 随机化记录 记录、变量
变量类型 连续、分类(不限) 连续变量 连续、分类(水平较多)
运行上限 大样本(1000) 大样本(5000) 小样本(1000)
特点 自动确定最佳分类数 保存每个样本到类中心的距离 提供丰富的聚类方法和图形
注:数据小优先考虑 层次聚类;有连续有分类优先考虑 two-step
多方法一起跑n次,验证稳定性,各类N近似最好
文献
本研究的目的是根据的社会人口相关的和临
文档评论(0)