10数据处理方法-精选课件(公开).pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据处理方法 调查数据的筛选 数据录入方法选择 评价调查数据质量 定位数据类型 数据库建立方法 一、调查问卷的预查 问卷的非系统和系统检查 系统检查:调研者随便地浏览问卷 系统检查:调研者用随机和系统的方式选择一些问卷进行检查 问卷检查时的内容 不完整问卷:问卷没有填完 对某些具体问题没有回答 全赞成和全反对模式 中间路线模式 不可信的回答 二、编码 编码:对一个问题的不同回答进行分组和确定数字代码的过程 开放式问题编码的过程 列出答案 合并答案 设置编码 1.????? 因为它口味比较好 2.????? 我所有的朋友都喝它 3.????? 不象其它的啤酒那样使我的胃不舒服 4.????? 我没有想过 5.????? 它具有最好的味道 6.????? 我总是选择这个品牌 7.????? 它最便宜 8.????? 其它牌子使我头痛,但这种不会 9.????? 不知道 10.? 我买任何打折的啤酒,它大部分时间都打折 11.? 我已经喝了20多年了 12.? 我喜欢它的口味 13.? 它是大多数同事都喝的品牌 14.? 没有特别的原因 15.? 这是我家人最喜欢的牌子 16.? 我不喜欢其它啤酒太重的口味 17. 这是我妻子在食品店中买的牌子 三、数据的录入 在问卷的右上角规定问卷的编号 录入 应用于营销调研的统计分析类型 品质标志的描述方法(1) 频数分布、相对分布、百分比频数分布 品质标志描述方法(2) ————条形图、柱形图 某校学生对体育锻炼态度调查结果 品质标志的描述方法(3) ————饼图 某校学生对体育锻炼态度调查结果 对矿泉水市场的调查 北京市居民矿泉水最喜欢品牌 数量标志的描述方法(1) 频数分布 单项式分布 组距式分布:等组距、不等组距 有关概念:组数、 组限(上限、下限)、 开口组、闭口组、组距、 组中值 数量标志的描述方法(2) 数量标志的描述方法(3) ————直方图 数量标志的描述方法(4) 对数据进行探索性分析:J.W.Tukey; 茎叶图(Stem-leaf) 数据描述的数值方法 通过数据指标来概括数据中的信息; 如何刻画数据的集中程度,或集中位置; 如何刻画数据的变异程度; 如何刻画检验异常值 数据集中位置的度量 平均数(Mean) 中位数(Median) 众数(Mode) 四分位数(Quartiles) 百分位数(Percentiles) 调整(或截尾)平均数(Trimmed Mean) 一个例子 某城市一居室月租金的70个数据 平均月租金 月租金的中位数 中位数=(475+475)/2=475美元 月租金的众数 众数是450,450出现的最多,频数是7 理解百分数 P百分数是这样一个数,它使得至多有p%的数据项小于这个数,而且至多有(100-p)%的数据的数据大于这个数。 中位数和上下四分位数都是特殊的百分位数。 计算第P百分位数的步骤 以递增顺序排列原始数据(由小到大); 计算 I=(p/100) n; 如果I不是整数,将I向上取整。大于I的毗邻整数指示第p百分位数的位置;如果I是整数,则第p百分位数是第I项与第I+1项的平均值。 月租金的第90百分位数 计算I=(90/100) 70=63。所以第90百分位数是 第63和64个数的平均值。 四分位数 第一个四分位数 =第25百分位数 第三个四分位数 =第75百分位数 截尾均值 去除 %的最大和最小值,计算剩余数的平均值。 月租金的5%的截尾值=487.19 考虑数据的类型 不同类型的数据应该采用不同类型的指标来刻画他们的集中位置。 对于定类数据你能够做什么? 对于定序数据你能够做什么? 对于定距数据和定比数据你能够做什么? 数据变异程度的度量 全距(Range) 四分位间距(IQR) 方差(Variance) 标准差(Standard Deviation) 变异系数(Coefficient of Variance, CV) 月租金的全距和四分位间距 关于方差和标准差 总体方差 样本方差 总体标准差σ,样本标准差s。 样本的标准差系数= 月租金的标准差 方差 标准差 标准差系数 五、确定和解释两个变量之间的关联 两个变量之间关联的类型: 非单调关联:一个变量的存在和另一个变量的存在体统上的关联。即关联存在而没有方向性。 单调关联:调研者可以在总体上指出两个变量关联的方向 线性关联:两个变量之间存在直

文档评论(0)

saodishenseng2 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档