第九章调查数据的整理与试卷.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* 重新 定义 变量 某些分析方法可能对变量的数学特性有一定要求,因此可能要 改变数据的测量水平,将定距、定比变量转为定序、定类变量。 例如,进行交叉列联分析时,必须先将某变量(如收入)划分 为高、中、低三组;又如,将过细的年龄分组合并为青少年组、 中年组和老年组。 转换 变量 进行聚类分析、因子分析时,必须消除量纲的影响,要在分析 前先把变量标准化;在回归分析时,为了改进模型的拟合程度, 要对变量进行对数变换、平方根变换。 * 定类 变量 转换 为便于分析,有时要把定类变量转换为0-1变量。例如,被调查 者的居住地包括北京、上海、广州、武汉四地。可以将其转换 为X1、X2、X3这三个0-1变量。 重新 组合 变量 为了某些特定的统计分析(如拟合模型),需要把几个变量重 新组合成一个新变量,重新进行定义。例如,根据被调查者在 对耐用消费品若干方面的评价,把各方面的评价值加权平均, 就可以得到一个新变量“综合评价得分”。 居住地 原变量 编码 0—1变量 X1 X2 X3 北京 1 1 0 0 上海 2 0 1 0 广州 3 0 0 1 武汉 4 0 0 0 1、数据的整理主要包括哪些内容?资料的接收包括哪 些工作? 2、资料的检查注意什么?资料的校订是什么意思? 3、事前编码和事后编码有什么区别?事后编码容易出 现什么问题?应如何避免? 4、如何保证数据录入的准确度? 5、数据净化意味要做着哪些工作? 6、为什么要对数据作统计预处理?缺失数据有哪些主 要的处理方法? * * 7、试举出一个例子来说明加权处理的方法及其作用。 8、试将附寻二问卷中C4重新分类,变成有意义的含3个 类别的新变量;并将H3改为用若干个哑变量来表示。 9、为什么要制定数据统计任务书?一般都包括哪些主要 内容? 10、选择统计分析法时主要应考虑哪些方面? 11、常用的统计分析法有哪些?都分别适用于什么场合? * * 数据的净化主要是尽可能地处理错误的或不合理的数据,并进行一致性检查。 一致性检查的主要内容包括变量的取值是否超出合理范围、有无逻辑错误以及有无极端值。 数据净化通常可采用统计软件进行,如SPSS、SAS、BMDP等软件,可以很方便地寻找超出范围、有极端值、或逻辑上不一致的数据。 * * 超出合理范围的变量值及极端值的检查: 对于非连续变量,通过编制频数分布表来检查; 例如,假如收入的编码应该是从1-6,分别对应6种不同收入水平的被访者,0表示缺失数据。若频数表中的变量值列出现大于6的数据,该数据就是超出合理范围的数据。 对于连续变量,通过计算均值、标准差、最大值、最小值等统计量来检查。 对于超出合理范围的变量值及极端值,可以根据对于的被访者编码、变量编码、记录号码、列号码以及超出范围的异常值,就可以找到原始问卷和数据问卷,并进行必要的修改。 * * 逻辑上不一致的数据的检查: 可以通过编制交叉表进行检查,从中很方便地可以发现逻辑上不合理的数据。 例如,有一张表明“产品使用频度”与“熟悉程度”之间关系的交叉表中如下: 显然,1列5行的数据就存在逻辑问题 * * 经常使用 有时使用 很少使用 根本不使用 非常熟悉 51 45 18 12 比较熟悉 43 32 46 63 有点熟悉 44 151 听说过但完全不熟悉 208 从未听说过 120 2 * * * * * 1 用一个样本统计量的值代替缺失值,如使用整个样本均值或缺失者所在 的子样均值代替缺失值。 2 用统计模型估计值代替缺失值。利用回归模型或判别分析模型来估计缺 失值。 将有缺失值的个案整个删除。可能导致小样本,导致严重偏差。 将有缺失值的个案保留,仅在相应的分析中作必要的排除。对不同变量 采用不同样本量可能不合适,但如果样本量大、缺失值少、变量之间不 是高度相关的,此法亦妥当。实际中常被采用。 3 4 * 对审核过程中辨别出来的数据缺失、无效、 与不一致等问题进行解决的过程。 插补 应用 场合 与被调查者不能取得联系时,取得联系又由于 经费、时间的限制时,客户自行处理有困难时, 均可运用插补技术。 * 插 补 方 法 类 别 对于特定的被调查者,可能的插补值只有 一个。对同一组数据进行多次插补,每次 都是相同的值。 对于特定的被调查者,可能的插补值是不 确定的。对同一组数据进行多次插补,每 次得出的值可能会不一样。 确 定 性 插 补 随 机 性 插 补 * 每种确定性的插补方法都对应着一种随机插补方法。 插补定量数据时,用确定性方法得出一个插补值,加 上从某个适宜的分布或模型产出的一个残差作为最后 的插补值,就成为随机插补。 * 根据逻辑推理进行插补 例1: 如果一个四项数值的和为 100,有两项分别为60与 40,其余

文档评论(0)

希望之星 + 关注
实名认证
文档贡献者

我是一名原创力文库的爱好者!从事自由职业!

1亿VIP精品文档

相关文档