多元统计分析考试.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多元统计分析考试

判断: 1对 2对 3对 4对 5错 6对应分析是否可降维(对) 7 数据的计量尺度:定类尺度,定序尺度,定距尺度,定比尺度 1.应用统计学中的数据可以不是数值。 ( × ) 2.相关系数等于零,表明变量之间不存在任何关系。 ( √ ) 3.双因素方差分析主要用于检验两个总体方差是否相等。 ( √ ) 4.环比增长速度的连乘积等于相应时期的定基增长速度 。 ( × ) 5.线性回归分析中,可决系数R2是对回归模型拟合程度的评价。 ( √ ) 6.加权平均数指数是加权综合指数的一种变形,它们具有相同的权数。 ( √ ) 7.在假设检验中,给定的显著性水平α是在原假设为真的条件下,拒绝原假设的概率。 ( × ) 8.在抽样调查中,允许误差也称极限误差,是抽样误差的最大值。 ( × ) 9.若样本容量确定,则假设检验中的两类错误不能同时减少。 ( √ ) 10.如果一组数据的众数大于中位数,且中位数又大于算术平均数,则这组数据的偏态系数小于0。 ( √ ) ??????(1)数据集的预先分析:对数据进行必要的分析,如数据分组、排序、分布图、平均数、标准差描述等,以掌握数据的基本特点和基本情况,保证后续工作的有效性,也为确定应采用的统计检验方法提供依据 ?????(2) 相关变量缺失值的查补检查 ?????(3)分析前相关的校正和转换工作. ?????(4)观测值的抽样筛选. ?????(5)其他数据清洗工作 二、如何处理数据缺失值: 答案一:1剔除数据,即删除数据。 2替换方法,一般有三种: 均值替换法,即用其他个案中该变量观测值的平均数对缺失的数据进行替换,但这种方法会产生有偏估计,所以并不被推崇。 个别替换法,通常也被叫做回归替换法(regression imputation),在该个案的其他变量值都是通过回归估计得到的情况下,这种方法用缺失数据的条件期望值对它进行替换。这虽然是一个无偏估计,但是却倾向于低估标准差和其他未知性质的测量值,而且这一问题会随着缺失信息的增多而变得更加严重。 多重替代法,它从相似情况中或根据后来在可观测的数据上得到的缺省数据的分布情况给每个缺省数据赋予一个模拟值。结合这种方法,研究者可以比较容易地,在不舍弃任何数据的情况下对缺失数据的未知性质进行推断。 答案二:1.删除含有缺失值的个案? 主要有简单删除法和权重法。简单删除法是对缺失值进行处理的最原始方法。它将存在缺失值的个案删除。如果数据缺失问题可以通过简单的删除小部分样本来达到目标,那么这个方法是最有效的。当缺失值的类型为非完全随机缺失的时候,可以通过对完整的数据加权来减小偏差。把数据不完全的个案标记后,将完整的数据个案赋予不同的权重,个案的权重可以通过logistic或probit回归求得。如果解释变量中存在对权重估计起决定行因素的变量,那么这种方法可以有效减小偏差。如果解释变量和权重并不相关,它并不能减小偏差。对于存在多个属性缺失的情况,就需要对不同属性的缺失组合赋不同的权重,这将大大增加计算的难度,降低预测的准确性,这时权重法并不理想。? 2.可能值插补缺失值? 它的思想来源是以最可能的值来插补缺失值比全部删除不完全样本所产生的信息丢失要少。在数据挖掘中,面对的通常是大型的数据库,它的属性有几十个甚至几百个,因为一个属性值的缺失而放弃大量的其他属性值,这种删除是对信息的极大浪费,所以产生了以可能值对缺失值进行插补的思想与方法。常用的有如下几种方法。 (1)均值插补。数据的属性分为定距型和非定距型。如果缺失值是定距型的,就以该属性存在值的平均值来插补缺失的值;如果缺失值是非定距型的,就根据统计学中的众数原理, 用该属性的众数(即出现频率最高的值)来补齐缺失的值。? (2)利用同类均值插补。同均值插补的方法都属于单值插补,不同的是,它用层次聚类模型预测缺失变量的类型,再以该类型的均值插补。假设X=(X1,X2…Xp)为信息完全的变量,Y为存在缺失值的变量,那么首先对X或其子集行聚类,然后按缺失个案所属类来插补不同类的均值。如果在以后统计分析中还需以引入的解释变量和Y做分析,那么这种插补方法将在模型中引入自相关,给分析造成障碍。? (3)极大似然估计。在缺失类型为随机缺失的条件

文档评论(0)

yaobanwd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档