大数据数学基础第6章 多元统计分析(1) (2).ppt

大数据数学基础第6章 多元统计分析(1) (2).ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
回归系数通常使用极大似然估计。由于 y 是均值为 的0-1型分布,概率函数为 , 。y 的概率函数合写为(式6-23)。 (式6-23) 用极大似然估计法计算 的估计值 。代回(式6?24)所示的Logistic函数中得(式6?24),即可求出要估计的 p的概率 。 (式6-24) Logistic 2.参数估计 对回归系数进行显著性检验时,可以使用 z 检验。原假设和备择假设如(式6?25)所示。 (式6-25) 构造 z 检验的统计量,如(式6?26)所示。 (式6-26) 在显著性水平 下,当 时,拒绝原假设 ;当 时,接收原假设 。 Logistic回归 3.z检验 目录 聚类分析是一类将数据所对应的研究对象进行分类的统计方法。这一类方法的共同特点是:事先不知道类别的个数与结构;据进行分析的数据是对象之间的相似性或相异性的数据,将这些数据看成是对象的“距离”远近的一种度量,将距离近的对象归入一类,不同类之间的对象距离较远。 聚类分析的类别: Q型聚类分析 R型聚类分析 Q型聚类是指对样本的聚类,R型聚类是指对变量的聚类。 聚类分析 在进行聚类时,可使用的方法有很多,而这些方法的选择往往与变量的类型有关。通常变量按测量尺度的不同可以分为以下3类。 间隔变量。变量用连续的量来表示,如长度、重量、温度等。 有序变量。变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序关系。 名义变量。变量用一些类表示,这些类之间既无等级关系也无数量关系,如性别、职业、产品的型号等。 对于间隔变量,距离常用来度量样本之间的相似性,而相似系数常用来度量变量之间的相似性。此外,相似系数也常用来度量伴有有序或名义变量的样本之间的相似性。 距离与相似系数 设 和 为两个样本,则所定义的距离一般应满足以下3个条件。 非负性: , 当且仅当 。 对称性: 。 三角不等式: 。 聚类过程中,相距较近的样本点倾向于归为一类,相距较远的样本点应归属不同的类。最常用的有如下几种。 (1)Minkowski距离,如(式6?27)所示,其中 。 (式6-27) 距离与相似系数 1.距离 对 ,(式6?27)有以下3种特殊形式。 当 时, ,称为绝对值距离(Manhattan distance),常被称作“城市街区”距离。 当 时, 。这是欧氏距离(Euclidean distance),是聚类分析中最常用的一种距离。 当 时, ,称为切比雪夫距离(Chebys

文档评论(0)

132****9295 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档