第九章调查数据的整理与试卷.pptVIP

下载本文档

965
0
约7.72千字
约 55页
2017-02-12 发布于湖北
举报
版权申诉

第九章调查数据的整理与试卷.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

* 重新定义变量某些分析方法可能对变量的数学特性有一定要求，因此可能要改变数据的测量水平，将定距、定比变量转为定序、定类变量。例如，进行交叉列联分析时，必须先将某变量（如收入）划分为高、中、低三组；又如，将过细的年龄分组合并为青少年组、中年组和老年组。转换变量进行聚类分析、因子分析时，必须消除量纲的影响，要在分析前先把变量标准化；在回归分析时，为了改进模型的拟合程度，要对变量进行对数变换、平方根变换。 * 定类变量转换为便于分析，有时要把定类变量转换为0-1变量。例如，被调查者的居住地包括北京、上海、广州、武汉四地。可以将其转换为X1、X2、X3这三个0-1变量。重新组合变量为了某些特定的统计分析（如拟合模型），需要把几个变量重新组合成一个新变量，重新进行定义。例如，根据被调查者在对耐用消费品若干方面的评价，把各方面的评价值加权平均，就可以得到一个新变量“综合评价得分”。居住地原变量编码 0—1变量 X1 X2 X3 北京 1 1 0 0 上海 2 0 1 0 广州 3 0 0 1 武汉 4 0 0 0 1、数据的整理主要包括哪些内容？资料的接收包括哪些工作？ 2、资料的检查注意什么？资料的校订是什么意思？ 3、事前编码和事后编码有什么区别？事后编码容易出现什么问题？应如何避免？ 4、如何保证数据录入的准确度？ 5、数据净化意味要做着哪些工作？ 6、为什么要对数据作统计预处理？缺失数据有哪些主要的处理方法？ * * 7、试举出一个例子来说明加权处理的方法及其作用。 8、试将附寻二问卷中C4重新分类，变成有意义的含3个类别的新变量；并将H3改为用若干个哑变量来表示。 9、为什么要制定数据统计任务书？一般都包括哪些主要内容？ 10、选择统计分析法时主要应考虑哪些方面？ 11、常用的统计分析法有哪些？都分别适用于什么场合？ * * 数据的净化主要是尽可能地处理错误的或不合理的数据，并进行一致性检查。一致性检查的主要内容包括变量的取值是否超出合理范围、有无逻辑错误以及有无极端值。数据净化通常可采用统计软件进行，如SPSS、SAS、BMDP等软件，可以很方便地寻找超出范围、有极端值、或逻辑上不一致的数据。 * * 超出合理范围的变量值及极端值的检查：对于非连续变量，通过编制频数分布表来检查；例如，假如收入的编码应该是从1-6，分别对应6种不同收入水平的被访者，0表示缺失数据。若频数表中的变量值列出现大于6的数据，该数据就是超出合理范围的数据。对于连续变量，通过计算均值、标准差、最大值、最小值等统计量来检查。对于超出合理范围的变量值及极端值，可以根据对于的被访者编码、变量编码、记录号码、列号码以及超出范围的异常值，就可以找到原始问卷和数据问卷，并进行必要的修改。 * * 逻辑上不一致的数据的检查：可以通过编制交叉表进行检查，从中很方便地可以发现逻辑上不合理的数据。例如，有一张表明“产品使用频度”与“熟悉程度”之间关系的交叉表中如下：显然，1列5行的数据就存在逻辑问题 * * 经常使用有时使用很少使用根本不使用非常熟悉 51 45 18 12 比较熟悉 43 32 46 63 有点熟悉 44 151 听说过但完全不熟悉 208 从未听说过 120 2 * * * * * 1 用一个样本统计量的值代替缺失值，如使用整个样本均值或缺失者所在的子样均值代替缺失值。 2 用统计模型估计值代替缺失值。利用回归模型或判别分析模型来估计缺失值。将有缺失值的个案整个删除。可能导致小样本，导致严重偏差。将有缺失值的个案保留，仅在相应的分析中作必要的排除。对不同变量采用不同样本量可能不合适，但如果样本量大、缺失值少、变量之间不是高度相关的，此法亦妥当。实际中常被采用。 3 4 * 对审核过程中辨别出来的数据缺失、无效、与不一致等问题进行解决的过程。插补应用场合与被调查者不能取得联系时，取得联系又由于经费、时间的限制时，客户自行处理有困难时，均可运用插补技术。 * 插补方法类别对于特定的被调查者，可能的插补值只有一个。对同一组数据进行多次插补，每次都是相同的值。对于特定的被调查者，可能的插补值是不确定的。对同一组数据进行多次插补，每次得出的值可能会不一样。确定性插补随机性插补 * 每种确定性的插补方法都对应着一种随机插补方法。插补定量数据时，用确定性方法得出一个插补值，加上从某个适宜的分布或模型产出的一个残差作为最后的插补值，就成为随机插补。 * 根据逻辑推理进行插补例1: 如果一个四项数值的和为 100，有两项分别为60与 40，其余