市场调查方法与技术(第5版) 课件 第十章 定量调查资料的整理(二).pptx

市场调查方法与技术(第5版) 课件 第十章 定量调查资料的整理(二).pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

市场调查课程第十章定量调查资料的整理(二)

学习目标理解调查资料整理的作用

熟悉调查数据整理的一般流程

理解编码的作用,掌握编码表的设计技巧

了解确实数据的处理方法

了解调查数据中的权数设计

本讲内容3调查资料整理概述01调查问卷的回收及审核02调查资料的编码0304调查数据的清洁和预处理

调查数据的清洁和预处理04

5数据的清洁包括一致性检查、逻辑检查和缺失数据的处理等。

6审核阶段进行的初步的一致性审核主要采用手工形式,此阶段的一致性检查主要通过计算机进行,更加全面广泛。调查数据的一致性检查和逻辑检查一致性检查变量的取值是否超出合理范围有无逻辑错误有无极端值若超出合理范围,则必须给予矫正。对于超出范围的变量取值,应核对原始问卷进行改正检查数据有无逻辑错误,逻辑错误的形式是多样的。并非所有的极端值都来自误差,但有时通过极端值可以找出有问题的数据例如,在要求被调查者给出满意度的5级量表中,表达满意度的选项从1~5,假设用9表示缺失值,则如果出现6,7,8,0这些数字,就说明超出了取值范围。例如,在商品房租赁市场调查中,没有租房却填写房屋租金。又如,不知道某个品牌的产品却又频繁使用该产品。还有年龄为15岁的人文化程度为硕士以上。这些数据都有逻辑错误,需要核对改正。例如,某被调查者对某品牌的评价非常低,原因是他对所有问题一律都答1。

7如果数据空缺或无效,一般视为缺失值。如果缺失数据比例较大,或者缺失数据的分布与总体分布有明显差异,就可能使分析有偏。缺失数据的处理在收集阶段尽量减少无回答,在审核阶段严把关,并采取再次回访调查或核实数据等在数据清洁阶段对缺失数据的处理处理方法事前控制事后控制

8四种事后控制缺失值处理方法删除个案删除缺失值加权组调整法插补法将有缺失数据的个案都删除掉,不参加数据分析适用于样本量很大、有缺失数据个案比例较小,且有缺失数据个案与无缺失数据个案在分布上无显著差异如果许多被调查者都有一些问题没有回答,将删除大量的数据导致小样本,可能会使结果产生严重偏差不删除有缺失数据的所有个案,仅在计算时删除相应变量的缺失值,即对变量有完整回答的个案才能参加计算,对变量有缺失值的个案不参加该次计算如果某变量有缺失值个案与无缺失值个案在分布上有明显差异,可能导致偏差样本量较大、缺失数据较少并且变量间不是高度相关的情况下,可使用对回答数据使用加权因子,降低缺失值的偏差影响利用其他数据替代或估算缺失值常用的插补法主要有均值插补法、回归插补法、最近邻插补法、随机插补法等例如,被调查家庭对某产品的购买量有缺失数据,可以根据回答数据建立购买量与家庭人口、家庭收入等变量的多元回归模型,然后根据估计的回归方程预测缺失的产品购买量数据。

9常用的插补法[1]均值插补法用回答单元观测值的均值对缺失值进行插补如果利用辅助信息对样本进行分层,,然后在每一层中,用层内回答单元的均值插补该层的缺失值,则称为分层均值插补法均值插补法不会改变估计量的均值,但可能会导致估计量方差的低估回归插补法利用回归模型对缺失数据进行预测插补例如,被调查家庭对某产品的购买量有缺失数据,可以根据回答数据建立购买量与家庭人口、家庭收入等变量的多元回归模型,然后根据估计的回归方程预测缺失的产品购买量数据。

10常用的插补法[2]最近邻插补法根据样本单元在辅助变量上的接近程度来选择缺失值的赋值单元即在变量Y的无回答单元邻近的回答单元中,利用辅助变量定义样本单元间的距离函数,选择满足所设定距离条件的回答单元的变量Y取值为插补值随机插补法在前面的确定性插补基础上加入随机成分,其基本表达式为:?

11与大部分数值相比有较大差别的数据被称为异常值或离群值。异常值的出现可能是随机波动的极端情况,也可能是源于调查过程的测量误差或过程误差。异常值的诊断异常值的存在对抽样估计误差有很大影响,因此在数据整理过程中,需要对异常值进行识别诊断和处理异常值诊断贝克曼和库克在1986年指出,异常值一般被理解为数据集明显不协调、出现概率非常小的数据点,

或者为不是与数据集来自同一部分掺入该数据集中的“杂质”

异常值的异常之处是相对于数据集的总体或假定的模型而言的基础的

数据集有异常值时,直接使用数据集进行统计分析将影响分析的准确性,甚至得出错误的结论,因此

需要判断异常值的类型,然后决定是否提出异常值或做其他平滑处理

12异常值诊断的常用方法:统计分布法与回归诊断法?统计分布法利用辅助变量对检测变量构建回归模型,通过估计的回归模型进行残差检验,如果出现异常大的残差或Cook距离,判断是异常值点回归检验法

13异常值诊断的常用方法:戈罗伯斯检验法与四位分数法将所有数据按数值大小排序,计算上四分位数UQ、下四分位数LQ以及四分位差IQR=UQ-LQ,不在区间(LQ-k×IQR,UQ+k×IQ

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档