网站大量收购独家精品文档,联系QQ:2885784924

实战医学统计——机器学习之聚类分析new.pdf

实战医学统计——机器学习之聚类分析new.pdf

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实战医学统计--机器学习之聚类分析 聂志强 前言 小恶魔提利昂,花大量的时间观察人群,他根据特定的特征就能猜测雪伊→whore ,琼恩→hero 又比如 + 公司白领高管 + TFBOY 90后 召开大数据分析会议,聘请3个领域专家后按组就坐,如何分小组 按照发表论文分组 机器学习系ML ? 距离 视觉散点图→相近点聚类→标签分类 量 数 I C S 域 领 机 数理统计系Math ? 算 计 计算机系CS ? 数学领域SCI数量 术语 聚类适用范围 1.设计抽样方案:分层抽样 2.预分析过程:先通过聚类分析达到简化数据的目的,将众多的个体先聚集成比较好处理的几个类别 或子集,然后再进行后续的多元分析。 3.细分市场、个体消费行为划分:先聚类,然后再利用判别分析进一步研究各个群体之间的差异。 聚类本质是描述有用的分类,无P ,只能用“有用性”来判断好用 按照个体的特征将它们分类,使同一类别内的个体具有高的同质性,而类别间则有高的异质性 特征= 空间距离、相似系数 R的聚类包 /web/views/Cluster.html 事先N 类、连续变量、case快速聚类、Z标准化 可case可variable聚类 先共线性诊断后再进行聚类,否则可能区分度不够 Twostep基于模型,kohonen基于网络,knn基于密度 要求高,转置后可聚类variable two-step k-means hierarchical 聚类对象 随机化记录 随机化记录 记录、变量 变量类型 连续、分类(不限) 连续变量 连续、分类(水平较多) 运行上限 大样本(1000) 大样本(5000) 小样本(1000) 特点 自动确定最佳分类数 保存每个样本到类中心的距离 提供丰富的聚类方法和图形 注:数据小优先考虑 层次聚类;有连续有分类优先考虑 two-step 多方法一起跑n次,验证稳定性,各类N近似最好 文献 本研究的目的是根据的社会人口相关的和临

文档评论(0)

187****5045 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档