- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据的基本特征
2002年中国 居民营养与健康状况调查抽样方案 多阶段分层整群随机抽样。 将全国划分为大城市、中小城市及四类农村,共6层。 抽取最终调查样本时采用逐级抽样的方法。 第一阶段在每层抽取22个县区级单位; 第二阶段在抽中的每个县区中随机抽取3个乡镇/街道; 第三阶段在每个抽中的街道中随机抽取2个村/居委会; 第四阶段在每个村、居委会随机抽取90户家庭。 对所抽到的家庭户中每个成员进行相关的调查。 这样实际上每个个体被抽中的概率是不一样的。 原因是,在每个阶段中在不同分总体中所抽到的抽样单元(如区县),其抽中的概率是不相同的。如第一阶段抽样,分总体为6层,每层中的单元数不同,但是我们抽取的区县数都是22个。 那么我们就不能采用一般的通过年龄性别进行调整的方法来获得总体的参数。 大数据时代数据使用者观念的变化:复杂抽样的例子 年龄 样本率(%) 样本构成 (%) 总体构成 (%) 调整率 0- 9.5 6.45 5- 8.5 6.10 10- 10.8 6.45 15- 6.3 8.26 20- 5.3 9.27 25- 6.4 7.26 30- 8.3 6.66 35- 8.6 8.71 40- 6.0 8.86 45- 7.4 7.22 50- 6.4 6.77 55- 4.7 6.29 60- 4.1 4.17 65- 3.6 2.94 70- 2.4 2.25 75- 1.7 2.35 合计 100.0 对于所有抽样方案,几乎都采用这样的调整。 在复杂抽样的情况下,不合适。 因为实际上,每个个体抽中的概率并不相同。 传统的率的调整方法 大数据时代数据使用者观念的变化:复杂抽样的例子 复杂抽样总体的参数及其变异的估计实际上是估计出每个个体被抽中的概率,他所代表的权重,再利用加权的方法估计。 抽样阶段 本阶段单元数 抽取单元数 抽中概率 本阶段权重(wi) 1 N1 n1 n1/N1 N1/n1 2 N2 n2 n2/N2 N2/n2 3 N3 n3 n3/N3 N3/n3 4 N4 n4 n4/N4 N4/n4 该个体抽样的权重 w=w1*w2*w3*w4 * 刘建华等:复杂抽样调查总体特征量及其方差的估计。中国卫生统计 2008,25(4):377-379 大数据时代数据使用者观念的变化: 复杂抽样的例子 管理者的分析需求增加了 过程分析:不仅要进行终末分析,而且需要中间过程的动态分析。这一点,尤其是在医院,需求更为迫切。在执行项目中,经常需要对项目的实施质量进行跟踪,就要采集项目实施的数据进行阶段性的分析。 项目实施的监测与评估 统计分析中的新问题:管理者的需求增加了 2003年的SARS,使人们对于出现的突发公共卫生事件的关注程度增加了。人们很关心什么时候会出现想不到的事件,想方设法探讨进行预报预警的方法。 在这个方面,统计工作者被赋予重要的职责,进行了极大的努力,发表了大量的文章——国内外莫不如此。 但是结果呢? 可以这样说,还没有一个成功的案例。 为什么? 说明对于疾病与突发公共卫生事件的预警已经超越了目前我们所掌握的经典统计方法的传统思路。统计工作者应该摆脱传统模式的束缚,探求新的进行疾病预警的方法。 统计分析中的新问题:管理者的需求增加了 数据收集中的正规设计少了 带来的问题: 数据收集的质量控制少了:数据缺失,数据错误现象严重存在。 网络报告的数据,漏报(指报告 不完整)、缺失(指报告的项目填写不完全)、错误普遍存在。 传统的统计方法是在严格的统计设计基础上进行的。现在没有了严格的统计设计,没有了抽样的概念,缺乏了数据收集的质量控制,我们怎么从样本推断总体? 统计分析中的新问题——数据的来源变化了 数据收集的渠道增加了 数据的内容扩展了。 数据的存贮分散了。 其优势是增加了许多值得利用的资料。 同时并存的是: 数据的质量保证机制的缺失; 数据的整理复杂性。 统计分析中的新问题——数据的来源变化了 连续动态资料的分析 与以往一次性调查的数据不同,通过信息系统采集的大量数据是实时的、动态的。 在大的项目实施中,由于项目实施的时间有先后,实施的进度有差异,数据是不断进入数据库的。尤其是健康档案的建设,更存在这样的问题。 统计分析中的新问题——数据的收集方式变了 有人提出我国大数据研发的四个着力点为: 一是建立一套运行机制: 大数据建设是一项有序的、动态的、可持续发展的系统工程,必须建立良好的运行机制,以促进建设过程中各个环节的正规有序,实现统合,搞好顶层设计。 二是规范一套建设标准: 应建立面向不同主题、覆盖各个领域、不断动态更新的大数据建设标准,为实现各级各类信息系统的网络互连、信息互通、资源共享奠定基础。 我国大数据研发建设的四个着力点 三是搭建一个共享平
文档评论(0)