- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据处理
;1.编码;2)数据录入;
?
;3.审核;通常,审核规则的确定基于以下几个方面:
关于调查主题的专业知识;
问卷和问题的结构;
其它相关的调查或数据;
统计理论(如离群值的检测方法)。;数据收集完毕后,对审核失效,通常按下列方法进行处理:
将其剔除;
进行插补;
设立特殊代码。;有些时候,一条记录(或整份问卷)不符合多条审核规则的要求,或者不符合少数几条关键审核规则的要求,从而使得后续的处理失去意义。
在这种情况下,通常可以将这些记录剔除,作为无回答处理,同时将赋予各被调查单元的权数进行调整。;对大多数审核失效都应该加以标示,留待作插补处理。
对于有些项目,我们可以用特殊代码标示的方法,对确认为审核失效而不可接受的值或无效的空白加以保留。;选择性审核;审核的指导方针;
审核的准则:;审核应该分阶段进行;
审核工作应由对本次调查的主题、问卷的设计和数据分析有专业知识、并且有类似调查经验的人员来进行;
各阶段所进行的审核不应与其它阶段的审核相抵触;
应该将审核的信息和审核工作对调查数据的影响通知数据的用户。
?
;
4.插补;?;几种确定性插补方法如下:;随机插补能更好地保持数据集的频数结构,保持比确定性插补方法更真实的变异性。
除供者插补方法外,下面介绍的方法可逐项进行插补。
所谓的供者插补方法,就是用一个供者来插补一个受者的所有缺失的或不一致的数据。;4.1推理插补;4.2均值插补
;4.3比(率)或回归插补;这时,的插补值按如下公式计算:
式中:
是变量y第i个记录的插补值;
是插补类中记录的x值的均值;
是插补类中记录的y值的均值。
这里我们假定,拟合一个插补类中有效数据(即通过了所有的审核)的比率或回归模型,同样适用于该插补类中审核失效的数据。
?
;比率和回归估计产生的插补值比简单均值法产生的插补值更加稳定。这种方法常用于的商业调查中的定量变量,在这种调查中常可用前期数据来预测现期数据。
?
利用前期??数据进行插补,也称前向插补,是比率或回归插补的一个特例,只是直接用前期调查的数据来作为当前调查的缺失数据的插补值。
;4.4热平台插补
;样本序号性别年龄婚姻状况收入汽车拥有
1男青年未婚70无
2男中老年已婚100有
3女青年未婚50无
4男中老年已婚70有
5男青年未婚90有
6女中老年丧偶30无
7男中老年已婚------
8女青年离异45有
9男青年未婚---无
10女中老年丧偶20---
11男青年未婚50有
12男中老年已婚------
;插补情况:;在序贯热平台插补方法中,数据在插补类中是按某种顺序排列进行处理的,插补就是用这个序列需要插补数据前面某一个有效的回答单元的数据来代替缺失的数值。
如果每次都使用相同的排序及选取方法,序贯热平台法是一种确定性的插补方法。而随机热平台插补,供者是在插补类中随机选出的,因此是一种随机插补方法。;供者插补方法(局限于热平台插补和最近邻插补)的优点是,因为相似的供者(如公司和家庭等)具有相似的特征,因此插补出的数值应该是相当准确的。使用供者插补可以保持数据的原始分布形式。;4.5冷平台插补;4.6最近邻插补
;4.7随机性插补
;哪些值需要插补
;举例说,假设某份问卷中关于一位被调查者的背景资料是:受教育程度(大学),婚姻状况(已婚),性别(女),年龄(10岁)。
显然,这条记录中,年龄-
原创力文档


文档评论(0)