- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
判断:
1对2对3对4对5错
6对应分析是否可降维(对)
7数据的计量尺度:定类尺度,定序尺度,定距尺度,定比尺度
1.应用统计学中的数据可以不是数值。(×)
2.相关系数等于零,表明变量之间不存在任何关系。(√)
3.双因素方差分析主要用于检验两个总体方差是否相等。(√)
4.环比增长速度的连乘积等于相应时期的定基增长速度。(×)
5.线性回归分析中,可决系数R2是对回归模型拟合程度的评价。(√)
6.加权平均数指数是加权综合指数的一种变形,它们具有相同的权数。(√)
7.在假设检验中,给定的显著性水平α是在原假设为真的条件下,拒绝原假设的概率。
(×)
8.在抽样调查中,允许误差也称极限误差,是抽样误差的最大值。(×)
9.若样本容量确定,则假设检验中的两类错误不能同时减少。(√)
10.如果一组数据的众数大于中位数,且中位数又大于算术平均数,则这组数据的偏态系数
小于0。(√)
简答:
一、数据的清洗技术:
答案一:
(1)解决缺失值:均值替换法、个案剔除法、多重替换法、热卡填充法、回归替换法。
(2)错误值:偏差分析,识别不遵守分布或回归方程的值。
(3)重复记录:合半、清除
(4)不一致:可定义完整性约束用于检测不一致性,也可通过分析数据发现联系,使
数据保持一致。
答案二:主要为下一步数据分析做进一步的准备,最终将数据清洗为满足分析需求的
具体数据集。期间主要内容包括:
(1)数据集的预先分析:对数据进行必要的分析,如数据分组、排序、分布图、平均数、
标准差描述等,以掌握数据的基本特点和基本情况,保证后续工作的有效性,也为确定应采
用的统计检验方法提供依据
(2)相关变量缺失值的查补检查
(3)分析前相关的校正和转换工作.
(4)观测值的抽样筛选.
(5)其他数据清洗工作
二、如何处理数据缺失值:
答案一:1剔除数据,即删除数据。2替换方法,一般有三种:
均值替换法,即用其他个案中该变量观测值的平均数对缺失的数据进行替换,但这种方
法会产生有偏估计,所以并不被推崇。
个别替换法,通常也被叫做回归替换法(regressionimputation),在该个案的其他变量值
都是通过回归估计得到的情况下,这种方法用缺失数据的条件期望值对它进行替换。这虽然
是一个无偏估计,但是却倾向于低估标准差和其他未知性质的测量值,而且这一问题会随着
缺失信息的增多而变得更加严重。
多重替代法,它从相似情况中或根据后来在可观测的数据上得到的缺省数据的分布情况
给每个缺省数据赋予一个模拟值。结合这种方法,研究者可以比较容易地,在不舍弃任何数
据的情况下对缺失数据的未知性质进行推断。
答案二:1.删除含有缺失值的个案
主要有简单删除法和权重法。简单删除法是对缺失值进行处理的最原始方法。它将存在
缺失值的个案删除。如果数据缺失问题可以通过简单的删除小部分样本来达到目标,那么这
个方法是最有效的。当缺失值的类型为非完全随机缺失的时候,可以通过对完整的数据加权
来减小偏差。把数据不完全的个案标记后,将完整的数据个案赋予不同的权重,个案的权重
可以通过logistic或probit回归求得。如果解释变量中存在对权重估计起决定行因素的变量,
那么这种方法可以有效减小偏差。如果解释变量和权重并不相关,它并不能减小偏差。对于
存在多个属性缺失的情况,就需要对不同属性的缺失组合赋不同的权重,这将大大增加计算
的难度,降低预测的准确性,这时权重法并不理想。
2.可能值插补缺失值
它的思想来源是以最可能的值来插补缺失值比全部删除不完全样本所产生的信息丢失
要少。在数据挖掘中,面对的通常是大型的数据库,它的属性有几十个甚至
文档评论(0)