1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计分类

统计分类 陶庄 中国CDC卫生统计研究室 类的定义 类是相似物体的集合。 较好的类 不好的类 好类的定义 同质性:同一类内中的元素,其相似性应尽可能高; 差异性:不同类中的元素间的差异性应尽可能大。 对异同的度量 原始矩阵 相似(异)性矩阵 对异同度量的指标 对差异的度量:距离; 对相似性的度量:相似系数。 距离 距离矩阵 7种距离(1) 7种距离(2) 方差不齐时距离判别示意图 7种距离(3) 7种距离(4) 相似系数 相似矩阵 方差和协方差矩阵(COV) 离均差平方和与离均差积和矩阵(SSCP) 相关系数矩阵(CORR) 常见的相似系数 指数相似系数 列联系数 夹角余弦 … 距离与相似系数在分类中的使用 距离最小合并; 相似系数最大合并; “相似系数距离”:d=1-|r| 用于分类的指标 人不可貌像——指标的选取 比统计算法更重要 Armand David(1826-1900) 争论!又是争论! 熊?浣熊? 按骨架分析,它更像浣熊; 它不像其它熊那样冬眠; 雄性生殖器很短且反向,与浣熊相同; 不会像熊那样吼叫,却像浣熊一样小声叫; 但是,它实在比浣熊大太多了… Edwin Colbert(1905-2001) 支持熊科的人,以及认为是浣熊科的人,还有中间派对于这个问题进行了多年的探索,也发展了一些逻辑清晰的观点,而与此同时,大熊猫正安祥地生活在中国四川的深山老林中,却从来没有想到过由于它作为一个大熊猫而引起的动物学争论。—1938 研究分类的两类方法 有指导的学习 (supervised learning) 无指导的学习 (unsupervised learning ) 判别分析 判别的一般步骤 训练样本:一定数量的已知实际类别且各指标的观测值均齐全的样品。 建立判别函数:参数估计和假设检验。 对待判样品的评判。 设有X1,X2,…,Xm共m个指标,要在A,B两类间进行判别,两类分别收集nA和nB个训练样本。 距离判别 距离判别例解 目标:判别国家的发展水平 类别:A类—发达国家;B类—发展中国家 指标:X1—出生时期望寿命,X2—成人识字率 训练样本:nA=5,nB=5 例-公式 例-指标 例-均向量和协方差矩阵计算 例-距离计算 例-判别 距离判别 先计算各类的中心(通常是各指标的均向量); 再将各点(包括待判点)与类中心计算距离; 分类于距离较近的类中; 一般不进行检验。 Fisher’s准则两类判别 设有X1,X2,…,Xm共m个指标,要在A,B两类间进行判别,两类分别收集nA和nB个训练样本。 建立判别函数 求解系数Cm 求解wij (1) 求解wij (2) 建立判别函数界值 判 别 如YAYB,那么: 若 YYc ,属于A类; 若 YYc ,属于B类; 若 Y=Yc ,暂不判断或皆可。 显著性检验(1) 显著性检验(2) 显著性检验(3) 训练样本的回代 Fisher’判别例解 目标:判别医院的工作水平 类别:A类—好;B类—差 指标:X1—床位使用率,X2—治愈率,X3—诊断指数 训练样本:nA=11,nB=9 例—A类医院 例—B类医院 例—两类医院均数 例—SS(A),SS(B) 例—W及均数差 例—求解方程组 例—判别函数和界值 例—显著性检验(1) 例—显著性检验(1) 例—训练样本的回代A 例—训练样本的回代B 例—对新医院的评价 待判医院指标: X1=80.83 X2=85.69 X3=90.50 代入判别函数: Y=1.0283 对于判断1(Yc=1.0257),应判为A类;于判断2(Yc=1.0488),应判为B类。 Fisher’s两分类判别 其思想其实就是坐标转换,或称投影,将两类尽可能分开; 以协方差为基础建立一个判别函数; 根据判别函数获得判别界值; 各点(包括待判点)分别计算函数值; 将各自的函数值与界值进行比较,按实际条件进行归类; 可以进行检验。 Fisher’s两类判别示意图 Bayes准则多类判别 设有X1,X2,…,Xm共m个指标,要在A,B…G类间进行判别,各类分别收集nA , nB…nG个训练样本。 建立判别函数组 计算各指标的均数 计算W阵及其逆矩阵W-1 分别求各方程的系数Ci 判 别 哪个Y值大就归该类!!! 显著性检验(1) 显著性检验(2) 回代与后验概率的计算 例解Bayes判别 仍用前例,即G=2; 各类均数已计算。 例—W及W-1 例—计算Ci 对于A类: C0=-133.0364,C1=0.8675,C2=1.7781,C3=0.4636 对于B类: C0=-114.6889,C1=0.8321,C2=2.2444,C3=-0.1495 例—判别方程组 例—回代A类 例—回代B类 例—后

文档评论(0)

sb9185sb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档