- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
;;问题与思考;数据审核就是检查数据中是否有错误
对于通过调查取得的原始数据(rawdata),主要从完整性和准确性两个方面去审核。完整性审核主要是检查应调查个体是否有遗漏,所有的调查项目是否填写齐全等。准确性审核主要是检查数据是否有错误,是否存在异常值等
对于通过其他渠道取得的二手数据,应着重审核数据的适用性和时效性
应弄清楚数据的来源、数据的口径以及有关的背景材料,以便确定这些数据是否符合自己分析研究的需要,不能盲目生搬硬套
还要对数据的时效性进行审核,对于有些时效性较强的问题,如果所取得的数据过于滞后,可能失去了研究的意义;数据录入就是生成电子数据文件
用Excel进行数据验证
第1步:用鼠标在工作表中选定录入数据的单元格区域,如A1:B10单元格区域
第2步:选择【数据】→【数据验证】
第3步:在【验证条件】的【允许】框内选择要录入的数据类型,比如,“整数”(默认为任何值)。在【介于】框内选择验证条件,或者在“最小值”和“最大值”框内输入数据范围。比如,在【最小值】框内输入0,在【最大值】框内输入100。出现的界面如下图所示
第4步:点击【出错警告】,在【式样】下选择“警告”,在【错误信息】下输入警告信息,比如“NA”。然后点击【确定】,即可完成设置
完成上述设置后,在此区域内录入不符合验证条件的数据将会出现以下错误信息。比如,在A1单元格录入1000,显示的错误信息。选择【是】,忽略此错误,选择【否】则返回单元格,再重新录入;?;【例2-1】表2-1是50个学生的学生编号、性别、专业和考试分数数据。按考试分数降序排列
第1步:将光标放在数据区域的任意单元格。然后点击【数据】?【排序】
第2步:在【主要关键字】框中选择要排序的变量,本例为“考试分数”,在【次序】中选择降序(默认为升序),然后点击【确定】(如果要专业排序,点击【选项】,在【方法】下选中“字母排序”或“笔划排序”);数据筛选(datafilter)是根据需要找出符合特定条件的某类数据;2.1数据的预处理;数据抽样(datasampling)是从一个已知的总体数据集中抽取随??样本。在实际应用中,可以使用不同统计软件抽取一个简单随机样本。下面通过一个例子说明用Excel的【数据分析】工具抽取随机样本的过程;产生正态分布随机数
第1步:将光标放在任意空白单元格。然后点击【数据】?【数据分析】
第2步:在弹出的对话框中选择【随机数发生器】,单击【确定】
第3步:在【变量个数】中如要产生随机变量的个数;在【随机数个数】框中输入要产生随机数的个数;在【分布】框中选择要产生随机数的分布;在【标准偏差】框内输入正态分布的标准差(默认为1);在【输出选项】下选择输出随机数的放置位置(默认为新作表组。单击【确定】,即可产生随机数;频数(frequency)落在某一特定类别(或组)中的数据个数
频数分布(frequencydistribution)把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来
由于类别数据本身就是用文字表达的类别,因此,只要先把所有的类别都列出来,然后计算出每一类别的频数,即可生成一张频数分布表
频数分布表中落在某一特定类别的数据个数就是频数
根据观察变量的多少,可以生成简单频数表、二维列联表和多维列联表等;【例2.5】沿用例2-1。分别制作学生性别和专业的简单频数表
用Excel生成频数分布表的步骤
第1步:选择【插入】→【数据透视表】
第2步:在【表/区域】框内选定数据区域(在操作前将光标放在任意数据单元格内,系统会自动选定数据区域)。选择放置数据透视表的位置。系统默认是新工作表,如果要将透视表放在现有工作表中,选择【现有工作表】,并在【位置】框内点击工作表的任意单元格(不要覆盖数据)。点击【确定】
第3步:用鼠标右键单击数据透视表,选择【数据透视表选项】,在弹出的对话框中点击【显示】,并选中【经典数据透视表布局】,然后【确定】
第4步:将数据透视的一个字段拖至“行”位置,将“另一个字段”拖至“列”的位置(行列可以互换),再将要计数的变量拖至“值字段”位置,即可生成需要的频数分布表;二维列联表(contingencytable)
也称为交叉表(crosstable)
涉及两个分类变量时,通常将一个变量的各类别放在“行”的位置,另一个变量的各类别放在“列”的位置(行和列可以互换)生成频数分布表,这样表格就是列联表;频数表的分析统计量
可以使用比例(proportion)、百分比(percentage)、比率(ratio)等统计量进行描述。如果是有序类别数据,还可以计算累积百分比(CumulativePercent)进行分析
比例也称构成比,它是一个样本(或总体)中各类别的频数与全
文档评论(0)