大数据问答:大数据时代是否还需要抽样.pdfVIP

大数据问答:大数据时代是否还需要抽样.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

如今大数据时代,人们都在争先恐后地拥抱大数据技术,都热衷于使用高级的数据分析方法(统计分析、

数据挖掘、机器学习、人工智能)对数据进行分析,却往往忽视了一些相对基本但却最为重要的问题。作

为专业的质量大数据解决方案供应商(数据采集,SPC质量监控,质量分析与创新),我们结合牛人的演

讲内容,总结了几个问题如下:

问一:大数据时代是否还需要抽样?

答一:答案是肯定的,原因至少有三个方面:第一,抽样的过程能帮助我们控制数据的质量,在总体数据

中,可能存在部分数据缺失或者是异常值的情况,抽样能帮助我们在一定程度上控制数据的质量;第二,

用于分析的数据质量的重要性远远大于其数量,因此数据并不是越多越好;第三,事实上,抽样做得好,

后面的数据分析工作就会很简单,相反,如果抽样没做好或者说把所有的数据都笼统地纳入分析,往往后

面需要用各种复杂的方法进行补救,分析难度大幅提高;第四,抽样还能降低分析数据时运算的难度。

问二:统计是干什么的?

答二:统计所做的事情是去伪存真,运用概率方法去描述生活中的不确定性,从而区分信息与噪音。而统

计思想则是为了运用对统计的理解帮助我们作出正确的决策。

问三:一个关于抽样的典型问题:有两个总体,其中B总体的数量是A总体的4倍(比如在美国(A)和

中国(B)做人口普查抽样),现因分析A的需要,从A中抽取500个样本进行研究。在其他条件相同的

情况下,为了对B达到同样的分析精度,需要从B中抽取多少个样本,是500个还是2000个呢?

答三:仍然只需抽500个。其实所需抽取样本量的多少与数据本身的均匀性和抽样方法有关,而与总体本

身大小的相关性相对较弱。拿医院抽血检查身体作为例子,医生不会因为病人体重更重而按照比例抽更多

的血;对工业生产的质量检验也同样如此:随着批量的增加,我们开始的时候需要抽取更多的样品进行检

验,但当抽取的样本量达到一定数量后,就没有太多必要继续扩大抽样数量了。

在数据本身的均匀性足够且抽样方法正确的情况下,统计分析的确是有一定的样本量的要求的,但样本量

超过某一个临界点后,其与其背后的总体(大样本)的量的大小的关系几乎可以忽略。

问四:传统统计和大数据统计的主要区别是什么?

答四:传统统计是累集有代表性的个体资料去推测母体的特征,特点是偏差较大、方差较小;大数据统计

是寻找有相关性的近似母体去推断个体的特征,特点是偏差较小,方差较大。

问五:辛普森悖论给质量管理的启发是什么?

答五:辛普森悖论向我们揭示了,在进行数据分析的时候,一方面我们需要特别留意样本抽取的科学性;

另一方面还需在分析时特别留意对数据的细分。

我们来看质量分析的一个案例:有两台测试机床同时加工零件,机床A加工了350个零件,其中有273

个满足要求;机床B加工了350个零件,其中有289个满足要求,看起来B机床的合格率较高;

机床AB

合格率78%=273/35083%=289/350

如果我们来分产品看一下,发现机床A不论是加工大两件还是小零件,表现都要比机床B好很多。

机床AB

大零件合格率97.3=73/7586.8%=269/310

小零件合格率72.3%=200/27550%=20/40

因此,我们在进行质量数据分析时,决不能仅仅从数据输出,还必须紧密结合我们的产品和流程的实际情

况。

关于QuAInS数字化检测与质量大数据:

QuAInS®([kweiins])致力于打造专业的数字化检测平台、质量大数据系统与制造智能(MI)解决方

案,专注于提供数字化检测平台、实时质量风险控制(包括实时SPC)系统、质量大数据分析系统、全流

程质量管理系统(QMS)、实验室管理系统(LIMS)以及制造智能平台等专业产品及持续改善顾问服务。

QuAInS解决方案荣获上海市创新基金奖励,在上海、广州、深圳等地设有分支机构,在中国大陆和海外

拥有广泛的客户群和合作伙伴。

文档评论(0)

137****2541 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档