大数据挖掘均匀抽样设计及数值分析.pdf

大数据挖掘均匀抽样设计及数值分析.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第 3O卷第4期 统 计 与信 息 论 坛 2015年 4月 Vo1.30 No.4 Statistics InformationForum Apr.,2015 【统计理论与方法】 大数据挖掘的均匀抽样设计及数值分析 李 毅,米子川 (山西财经大学 统计学院,山西 太原 030006) 摘要:就大数据生成过程的多维性、稀疏性和动态性等特征而言,大数据集并不等于统计总体 ,即便对于 静态大数据集,随机抽样同样有着不可或缺的参数估计和总体推断的方法论价值。在大型数据分析中,常常 遇到需要降低维度和减少计算量但又不知如何抽样处理的问题。因此,提出均匀抽样在大数据挖掘中应用 的基本策略,并使用模拟数据和医学胎心宫缩监护数据集进行数值分析。结果表明:均匀抽样在降低决策 树 、adaboost、bagging和随机森林的误差率上优于现有文献的常用方法,这一策略能为面向大数据的数据挖 掘方法提供参考,也为针对大数据分析的抽样有效性提供佐证。 关键词:均匀设计;数据挖掘;大数据抽样 中图分类号 :C812:F222.3 文献标志码:A 文章编号:1007--3116(2015)04—00O3一O4 录的数据是一种结构完整、信息充分的 “小数据”;其 一 Z1 ÷ - 、 4 I 口 次,就资料收集 目的而言,大数据收集的目的也是不 随着社交媒体、手机APP、安全监视器、天文望 同的,其收集过程和 目的并非统计分析的目的,但对 远镜、卫星、工业生产线和各种传感器等基于互联网 于价值的提取二者是相同的,并在大数据的分析过 的硬件和应用软件的普及,来 自不同过程的统计数 程中,希望从数据中发现一些有趣的特征或模式,藉 据不断产生,其物理特征包含文字、图像、音频、纯数 此提供有价值的信息以供决策参考;第三,大数据的 据等等,这些数据数量庞大、结构复杂且维度多 规模显著地大于传统的统计数据,但是所蕴涵的信 样_L1 ]。面向大数据的统计分析,存在三个方面的 息量则相对稀少,一般被称为数据的 “稀疏性”。根 困难和挑战:首先,由于大数据的背景分布缺乏先验 据统计学基本理论,有用的样本量应该是越多越好, 信息,大多数分析过程是从单纯的数据出发,这种分 但是大数据的信息贡献却不是这样,数据量大不一 析过程被称为 “冷启动”。通常大数据的产生和收集 定意味着有价值的信息就会增多,大量的虚假知识 在事先并没有特别的目的,或者收集者的目的并不 甚至会损害数据信息,因此 “大数据等于总体”的思 明确,因此无法获得显著的先验分布信息。与此相 想是错误的。此外,大数据建模时,数据本身的属性 反,在传统的统计数据采集方法中,实验设计则是一 也会成为统计建模和分析的难题,如高维度、时间序 个 目的明确的数据搜集过程 ,即在一定的控制变量 列特性、变量间的复杂关系等等,都是亟待解决的问 和区组条件下完成对数据的重复测度和记录。实验

文档评论(0)

xuefei111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档