实战医学统计——机器学习之聚类分析new.pdf

下载文档 降价啦

9
0
约5.74千字
约 34页
2018-08-19 发布于福建
举报
版权申诉
保障服务

实战医学统计——机器学习之聚类分析new.pdf

1、本文档共34页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

实战医学统计--机器学习之聚类分析聂志强前言小恶魔提利昂，花大量的时间观察人群，他根据特定的特征就能猜测雪伊→whore ，琼恩→hero 又比如 + 公司白领高管 + TFBOY 90后召开大数据分析会议，聘请3个领域专家后按组就坐，如何分小组按照发表论文分组机器学习系ML ？距离视觉散点图→相近点聚类→标签分类量数 I C S 域领机数理统计系Math ？算计计算机系CS ？数学领域SCI数量术语聚类适用范围 1.设计抽样方案：分层抽样 2.预分析过程：先通过聚类分析达到简化数据的目的，将众多的个体先聚集成比较好处理的几个类别或子集，然后再进行后续的多元分析。 3.细分市场、个体消费行为划分：先聚类，然后再利用判别分析进一步研究各个群体之间的差异。聚类本质是描述有用的分类，无P ，只能用“有用性”来判断好用按照个体的特征将它们分类，使同一类别内的个体具有高的同质性，而类别间则有高的异质性特征= 空间距离、相似系数 R的聚类包 /web/views/Cluster.html 事先N 类、连续变量、case快速聚类、Z标准化可case可variable聚类先共线性诊断后再进行聚类，否则可能区分度不够 Twostep基于模型，kohonen基于网络，knn基于密度要求高，转置后可聚类variable two-step k-means hierarchical 聚类对象随机化记录随机化记录记录、变量变量类型连续、分类(不限) 连续变量连续、分类(水平较多) 运行上限大样本(1000) 大样本(5000) 小样本(1000) 特点自动确定最佳分类数保存每个样本到类中心的距离提供丰富的聚类方法和图形注：数据小优先考虑层次聚类；有连续有分类优先考虑 two-step 多方法一起跑n次，验证稳定性，各类N近似最好文献本研究的目的是根据的社会人口相关的和临