- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据编码 定性变量的编码: 有序变量的编码:临床体检或实验室检验常用?、±、+和++等来表示测量结果,属于有序变量。 有序变量的取值称为水平,如果有理由认为各水平之间是等距离或近似等距离,则可把各水平取值依次记作 1、2、3、4。例如,患者术后出血量分为少、一般、偏多、过多,分别按这个顺序编码为1、2、3、4。如果把“1”理解为“较低水平”,代表较少出血量,把“4”理解为“较高水平”,代表较多出血量,完全可以和医学实际意义相吻合。 数据编码 问卷中多复选题的编码: 所谓复选题,也称多项选择题, 即题目的答案不止一个,答案的选项可以根据研究需要多重选择。 复选题主要包括两种情况: 一种是被调查人员从选项集中任意选择符合自身情况的选项,没有其他附加要求; 另一种是被调查人员从选项集中选择最重要的3项(或5项),并按照程度大小排序。 数据编码 问卷中多复选题的编码: 1. 多重二分法:将复选题的多个选项分别当作独立的变量来看待,根据选项的个数分别定义为若干个子变量。对于每一选项的赋值,选定义为“1”,不选为“0”。 如例1按照多重二分法进行编码时,就会产生5个新的且相互独立的变量,分别用A1、A2、 A3、A4、 A5表示,假设某位调查对象选择了“1、2、5”,编码的结果便为A1=1、A2=1、A3=0、A4=0、A5=1。 数据编码 问卷中多复选题的编码: 2.随机编码法:当变量选项比较多,而题目只要求从多个选项中选择最重要的3或5项时,仍然使用多重二分法录入显然不方便。为了减少录入“0”的次数,常选用另一种编码方法-随机编码法。 如例2,这时候只要定义3个子变量即可(如B1,B2,B3),每个子变量的备选项可以分别定义为1-10,也可以理解为每个子变量为被访者的一次选择。假设某位调查对象选择了“1、2、5”,编码的结果便为B1=1、B2=2、B3=5。 数据编码 问卷中多复选题的编码: 3.组合编码法:运用了排列组合的方法,把所有符合例3条件的组合定义为一种类型,并分别用阿拉伯数据对其进行编码。然后在数据录入时,只需要把某一类型的代码录入一个变量(C)即可。 由于这种方法只需定义一个变量,因此可以有效减少了数据容量, 提高录入速度,便于数据的检查。而且用单选题的编码方式用于复选题的数据编码,也必然增加了可选择的统计分析手段。 存在着因备选项增加而造成的组合类型多样化、类型识别困难的弊端。 数据编码 缺失数据的编码 : 失访数据(又称漏失数据):是指应该调查而未被调查到的数据,例如调查对象回答不准确、调查员记录不清、项目遗漏或随访过程中调查对象失访等原因,都会导致漏失数据的产生。 空白数据:是在调查对象不具有某些项目的情况时产生,它属于不必调查的数据,例如男性中学生月经初潮的调查项目一定呈空白状态。 数据编码 缺失数据的编码 : 虽然这两种类型的缺损数据在客观上都造成了调查表项目的空白,但它们的性质及其在分析时的处理方法不同。有些调查者将漏失数据和空白数据都视作同一代码例如“9”或“0”处理,这对统计分析特别是多元分析极为不利。如果某项目漏失数据较少,仍可用适当方法加以处理并使其参与分析,但真正的空白数据则完全没有必要这样来做。 一般来说,可用适当位数的“9”或“X” 代码来表示漏失数据;用“0”或“-”代码表示空白数据。 缺失值的概念 缺失数据的分类 缺失值的处理 缺失值处理 缺失值的定义 缺失值是指在数据采集与整理过程中丢失的内容,也说明现有数据集中某个或某些属性的值是不完全的。 主要包括失访数据(又称漏失数据)和空白数据。 缺失值是各类统计调查中都无法完全避免的事情,在一项调查中要想获得100 %的有效问卷是几乎不可能的。特别是在开展大样本长期随访研究时,即使质量控制措施非常严格,缺失值也会很容易达到10%。 造成数据缺失的原因 问卷涉及敏感性问题 搜集数据的方法不严格 调查员的行为和态度不端正 问题本身无答案 有些信息暂时无法获取 有些信息被遗漏 调查研究中的损耗较大 从多个数据源中合并数据等。 在数据整理阶段,研究人员将不符合逻辑的数据剔除也会造成数据的缺失。 缺失值带来的问题 数据中的信息不能被完全提取、造成数据处理与分析困难、容易产生偏倚等。 如果进行时间序列分析,存在缺失值甚至会导致统计分析无法进行。 在面对缺失数据时,很多人都选择直接删除缺失值的方法。当缺失值在数据库中所占比重较少时,直接删除不会带来太大的问题;但当缺失值所占比例较多时,直接删除会损失大量信息,甚至可能得到错误的结论。 缺失值的分类 在调查研究中,缺失数据又被称为无回答,无回答主要包括单位无回答和项目无回答两种形式。 “单位无回答”又称全部调查项目无回答,是指被调查者不愿意或者不能够回答整张问卷; “项目无回答
您可能关注的文档
最近下载
- 八年级生物(上)第六章 《人体生命活动的调节》单元检测卷含答案解析.docx
- 一种水生萤火虫室内规模化饲养装置.pdf VIP
- D301-1~3 室内管线安装(2004年合订本).docx VIP
- 2025至2030中国电子树脂行业产业运行态势及投资规划深度研究报告.docx
- 三一中型挖掘机SY335BH SIC_产品手册用户使用说明书技术参数图解图示电子版.pdf VIP
- 全科教学模式探讨及实践(安徽医科大学第一附属医院 全科医学科 全科医学教研室 唐海沁).pdf VIP
- 最全(一)公安局辅警招聘考试题库.doc VIP
- 直接引语和间接引语课件详细.ppt VIP
- 西式面点师(初级)课件 项目2 面包制作.pptx
- 发酵设备课程设计——1000m³内循环气升式生物酒精发酵罐设计.doc VIP
文档评论(0)