第九章 调查数据的整理与分析PPT.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第九章 调查数据的整理与分析PPT

数据的净化主要是尽可能地处理错误的或不合理的数据,并进行一致性检查。 一致性检查的主要内容包括变量的取值是否超出合理范围、有无逻辑错误以及有无极端值。 数据净化通常可采用统计软件进行,如SPSS、SAS、BMDP等软件,可以很方便地寻找超出范围、有极端值、或逻辑上不一致的数据。 * * 一、数据的净化 超出合理范围的变量值及极端值的检查: 对于非连续变量,通过编制频数分布表来检查; 例如,假如收入的编码应该是从1-6,分别对应6种不同收入水平的被访者,0表示缺失数据。若频数表中的变量值列出现大于6的数据,该数据就是超出合理范围的数据。 对于连续变量,通过计算均值、标准差、最大值、最小值等统计量来检查。 对于超出合理范围的变量值及极端值,可以根据对于的被访者编码、变量编码、记录号码、列号码以及超出范围的异常值,就可以找到原始问卷和数据问卷,并进行必要的修改。 * * 一、数据的净化 逻辑上不一致的数据的检查: 可以通过编制交叉表进行检查,从中很方便地可以发现逻辑上不合理的数据。 例如,有一张表明“产品使用频度”与“熟悉程度”之间关系的交叉表中如下: 显然,1列5行的数据就存在逻辑问题 * * 一、数据的净化 经常使用 有时使用 很少使用 根本不使用 非常熟悉 51 45 18 12 比较熟悉 43 32 46 63 有点熟悉 44 151 听说过但完全不熟悉 208 从未听说过 120 2 * * 二、数据的预处理 * * (一)缺失数据的处理 * 1 用一个样本统计量的值代替缺失值,如使用整个样本均值或缺失者所在 的子样均值代替缺失值。 2 用统计模型估计值代替缺失值。利用回归模型或判别分析模型来估计缺 失值。 将有缺失值的个案整个删除。可能导致小样本,导致严重偏差。 将有缺失值的个案保留,仅在相应的分析中作必要的排除。对不同变量 采用不同样本量可能不合适,但如果样本量大、缺失值少、变量之间不 是高度相关的,此法亦妥当。实际中常被采用。 3 4 * 1、插补的意义 对审核过程中辨别出来的数据缺失、无效、 与不一致等问题进行解决的过程。 插补 应用 场合 与被调查者不能取得联系时,取得联系又由于 经费、时间的限制时,客户自行处理有困难时, 均可运用插补技术。 * 2、插补的方法 插 补 方 法 类 别 对于特定的被调查者,可能的插补值只有 一个。对同一组数据进行多次插补,每次 都是相同的值。 对于特定的被调查者,可能的插补值是不 确定的。对同一组数据进行多次插补,每 次得出的值可能会不一样。 确 定 性 插 补 随 机 性 插 补 * 2、插补的方法 每种确定性的插补方法都对应着一种随机插补方法。 插补定量数据时,用确定性方法得出一个插补值,加 上从某个适宜的分布或模型产出的一个残差作为最后 的插补值,就成为随机插补。 * (1)推理插补 根据逻辑推理进行插补 例1: 如果一个四项数值的和为 100,有两项分别为60与 40,其余两项留空,则空 着的两项一定为0 例2: 一个被调查者列出了三个 孩子的名字,但“孩子数” 空着,可以推出孩子数是 3 * (2)均值插补 运用插补类的均值对缺失或不一致的值进行插补 例如,在一份住房调查的问卷中,公寓月租金的值缺失,则 可利用同插补类中正确填报的租金的问卷计算其平均值, 用这个平均值代替缺失值。 例子 用均值插补相当于对同一插补类中所有的被调查者使用相同 的无回答权数进行调整;假定无回答是一致的,且无回答的 被调查者与提供回答的被调查者具有相似的特征。 假定 * (2)均值插补 均值插补可能会得到比较好的点估计,但由于在 插补类均值这一点形成一个人为的“峰值”,从而 破坏了分布形态和变量之间的关系。如果用常规 的抽样方差公式进行计算,就会低估最终的方差。 特点 均值插补通常在没有辅助信息可用,或只有少 量记录需要作插补时才最后被采用。 应用 * (3)回归或比率插补 含义 使用辅助信息及其他记录中的有效回答建立一个比率 或回归模型,该模型表明了两个或多个变量之间的关 系。 模型 插补 公式 * (3)回归或比率插补 例 子 一份关于公司人员的调查问卷,问卷中有两个 问题是公司职员月工资总额 和职工人数 。 但其中一份问卷工资总额缺失,而职工人数已 正确填报,同时该公司所属行业也已知。这样 就可以用全部问卷中属于这一行业的其他有效 问卷求得平均每个职工的工资额,再根据这个 比值(平均工资总额与平均职工人数之比率R) 与已知的该公司的职工人数,确定该公司的月 工资总额。 * (4)热平台插补 热平台插补是使用同一插补类中的供者记录的信息来代替 一个相似的受者记录中缺失的或不一致数据。 为了找到一个与受者记录相似的供者记录,必须先确定与需要进行插 补处理

文档评论(0)

djdjix + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档