统计分析方法建模.pptVIP

下载本文档

13
0
约5.3千字
约 52页
2019-09-07 发布于湖北
举报
版权申诉

统计分析方法建模.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

例9.3的程序实现 9.1.2 有序样本聚类方法 8岁至11后生活规律化体重稳定增加模型解释儿童从1岁到11岁可分为三个阶段 1岁为嗜睡好吃体重增加最快的阶段 2岁至7岁儿童入学前或刚入学的阶段, 体重增加有所减缓分为3类分为2类 9.1.2 有序样本聚类方法取定k=4 为了消除各种量量纲的影响，以保证各变量在分析中处于同等地位，通常需要对数据进行标准化变换根据数据的类型对标准化后的变量定义样本间的距离。 9.1 统计聚类模型小结 (或对标准化后的变量定义样本间的相似系数) 根据实际问题选择和使用恰当的聚类分析法 (如最短距离法、最长距离法、重心距离法) 费歇最优分割法是一种有序样本聚类法 9.2.1 距离判别法 9.2.2 费歇尔判别法 9.2.3 建模与求解 9.2 统计判别模型常见的判别)问题 9.2 统计判别模型（1）诊断疾病（2）天气预报（3）在考古方面的应用（4）昆虫分类 9.2.1 距离判别法距离判别法中的数学模型它们的数学期望和方差分别为表示两个总体 , 是取值于中的随机变量假设今有一个样本问X属于G1总体还是属于G2总体？问题现在变为：距离判别法是根据X与G1和G2的距离决定X的归属距离判别的根据与原则若X与G1 距离小，则X属于G1 ；距离判别法原则: 若X与G2 距离小，则X属于G2 ；这里采用马氏距离计算X与G1和X与G2的距离平方之差距离判别的根据与原则距离判别的根据与原则定义一个函数距离判别准则如果则判断如果则判断由确定判别准则为令称为线性判别函数. a称为判别系数. 在判别分析中，实质是利用线性判别函数把当样本 X落入D1时，则判断；当样本X落入D2时，则判断。距离判别的根据与原则 (X的线性函数) 注样本空间划分成两个部分：例如距离判别法规定了的一个分划如图6.6 设图6.6 规定的分划判别误差误差产生的原因其线性判别函数为考察当p=1时的情形不妨假设 ,则当判断当判断 G1的分布密度判别误差误差产生的原因判别规则符合直观判断的合理性；判别方法会发生误判的情况. 该错误的情况发生在X当来自G1而落入阴影部分而根据判别法则判为 (如图6.8所示的情形) 可见 G2的分布密度统计分析方法建模 9.1 统计聚类方法 9.2 统计判别方法 9.1 统计聚类方法 9.1 统计聚类模型 9.1.1 距离和相似系数 9.1.2 系统聚类方法 9.1.3 有序样本聚类方法分类学主要靠专业知识进行分类数学工具逐渐被引进了分类费歇(Fisher)的最优分割法模糊统计聚类分析 9.1 统计聚类模型统计聚类分析距离分类方法 1965模糊数学的出现利用样本的指标值对样本进行分类的统计方法称为统计聚类分析法聚类分析问题：设有n个样本，每个样本有p个指标值问如何按这些指标值把n个样本分成k类 ? 9.1 统计聚类模型引例6.1中n=11 p=1 9.1.1 距离和相似系数一种方法是将每个样本看作 p维空间中的一个点, 在p维空间中定义两点间的距离，并把距离近的点归成一类；另一种方法是定义指标间的相似系数，相似系数接近1或 -1的两个指标相似性最大，把最相似的归成一类。衡量两个样本的接近程度的方法常用的有两种 9.1.1 距离和相似系数 3.名义尺度:指标度量既不是数量也没有次序关系,如化学中的催化剂种类,医疗诊断中的“+”、“-”反应等定义距离和定义相似系数都与数据的类型有关。数据按其测量的尺度可分成如下几类 1.间隔尺度:指标用连续实变量表示,如长度、重量等 2.有序尺度:指标度量没有明确的数量表示,只有次序关系,如对事物的评价分为好、中、差三个等级模糊统计聚类分析距离的概念为消除各种量量纲的影响以保证各变量在分析中处于同等地位 1.利用标准差进行标准化 x的标准差标准化变量为数据标准化方法 2. 利用极差标准化 x的极差标准化变量为用标准差标准化后和用极差标准化后的变量其均值都为0，相应的标准差和极差均为1。距离的概念数据标准化方法表示两个样本间的距离标准化后的数据 1. 绝对距离 2.欧几里德(Euclid)距离 3.闵可夫斯基(Minkowski)距离常用的距离距离的概念开始时，由于n个样本各自成一类，故类与类之间的