统计学第三章描述统计要点.ppt

第三章 描述统计 第一节 数据预处理 一、缺失值处理 二、数据分组 三、次数分配 四、分布曲线 一、缺失值处理 缺失值是指在数据采集与整理过程中丢失的内容。 缺失值的处理一般有两种方式: 一是删除对应的记录,这种方式在数据缺失非常少的情况下是可行的,但如果各个项目中都有少数的数据缺失存在,对所有缺失的记录都进行删除可能就会使总样本量变得非常小,从而损失许多有用信息。 缺失值处理的第二种方式是进行插值处理,所谓插值,是指人为地用一个数值去替代缺失的数值。 插值处理根据插值的不同,有如下一些方法: 1、随机插值 根据缺失值的各种可能情况,等概率地进行插值。 例如在调查中,某人的性别缺失,其性别有两种可能性,一是“男”,二是“女”,可以简单地掷一枚硬币,如果正面朝上,则赋值为“男”,如果反面朝上,则赋值为“女”。 2、依概率插值 随机插值是假定一个变量取各种值的可能性是相等的,但有些情况下,我们可以事先知道一个变量取各种值的概率,例如,在对某单位的调查中,发现该单位女性占的比例是75%,男性的比例是25%,在这次调查中某人的性别缺失,则在对其的性别进行赋值时,不是按50%概率赋为“女”,而是按75%概率赋为“女”。 3、就近插值 就近插值是指根据缺失记录附近的其他记录的情况对缺失值进行插值,例如在上例中,“张三”的性别出现缺失,此时可以用其邻近的“李四”的性别数据替代“张三”的性别

文档评论(0)

1亿VIP精品文档

相关文档