大数据挖掘均匀抽样设计及数值分析.pdf

下载文档

31
0
约 4页
2017-05-21 发布于湖北
举报
版权申诉
保障服务

大数据挖掘均匀抽样设计及数值分析.pdf

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第 3O卷第4期统计与信息论坛 2015年 4月 Vo1．30 No．4 Statistics InformationForum Apr．，2015 【统计理论与方法】大数据挖掘的均匀抽样设计及数值分析李毅，米子川 (山西财经大学统计学院，山西太原 030006) 摘要：就大数据生成过程的多维性、稀疏性和动态性等特征而言，大数据集并不等于统计总体，即便对于静态大数据集，随机抽样同样有着不可或缺的参数估计和总体推断的方法论价值。在大型数据分析中，常常遇到需要降低维度和减少计算量但又不知如何抽样处理的问题。因此，提出均匀抽样在大数据挖掘中应用的基本策略，并使用模拟数据和医学胎心宫缩监护数据集进行数值分析。结果表明：均匀抽样在降低决策树、adaboost、bagging和随机森林的误差率上优于现有文献的常用方法，这一策略能为面向大数据的数据挖掘方法提供参考，也为针对大数据分析的抽样有效性提供佐证。关键词：均匀设计；数据挖掘；大数据抽样中图分类号：C812：F222．3 文献标志码：A 文章编号：1007--3116(2015)04—00O3一O4 录的数据是一种结构完整、信息充分的 “小数据”；其一 Z1 ÷ - 、 4 I 口次，就资料收集目的而言，大数据收集的目的也是不随着社交媒体、手机APP、安全监视器、天文望同的，其收集过程和目的并非统计分析的目的，但对远镜、卫星、工业生产线和各种传感器等基于互联网于价值的提取二者是相同的，并在大数据的分析过的硬件和应用软件的普及，来自不同过程的统计数程中，希望从数据中发现一些有趣的特征或模式，藉据不断产生，其物理特征包含文字、图像、音频、纯数此提供有价值的信息以供决策参考；第三，大数据的据等等，这些数据数量庞大、结构复杂且维度多规模显著地大于传统的统计数据，但是所蕴涵的信样_L1 ]。面向大数据的统计分析，存在三个方面的息量则相对稀少，一般被称为数据的 “稀疏性”。根困难和挑战：首先，由于大数据的背景分布缺乏先验据统计学基本理论，有用的样本量应该是越多越好，信息，大多数分析过程是从单纯的数据出发，这种分但是大数据的信息贡献却不是这样，数据量大不一析过程被称为 “冷启动”。通常大数据的产生和收集定意味着有价值的信息就会增多，大量的虚假知识在事先并没有特别的目的，或者收集者的目的并不甚至会损害数据信息，因此 “大数据等于总体”的思明确，因此无法获得显著的先验分布信息。与此相想是错误的。此外，大数据建模时，数据本身的属性反，在传统的统计数据采集方法中，实验设计则是一也会成为统计建模和分析的难题，如高维度、时间序个目的明确的数据搜集过程，即在一定的控制变量列特性、变量间的复杂关系等等，都是亟待解决的问和区组条件下完成对数据的重复测度和记录。实验