——大数据时代统计建模探索.PDFVIP

  • 143
  • 0
  • 约3.16万字
  • 约 30页
  • 2017-06-10 发布于湖北
  • 举报
基于移动通信信号的山东省重点景区客流研究 ——大数据时代的统计建模探索 山东省统计局 董晓青、崔俊富、许晓鸣 “大数据就像春天的萌芽,即将破土而出;大数据就像 东方的旭日,即将冉冉升起;大数据就像大海的浪潮,即将 汹涌澎湃。”“深入研究大数据技术的特点以及在政府统计工 作中的应用模式,是一项具有重要战略意义的课题,既有重 要的理论意义,也有迫切的现实意义。” 马建堂:《大数据在政府统计中的探索与应用》 “统计建模的目的就是为了寻求规律,对未来进行预 测。在大数据时代,积累了大量的数据,这些数据包括即将 发生的未来信息。必须充分利用大数据建立富有价值、操作 性强、多样性的统计模型,为分析社会经济发展服务。”“利 用移动通信来调查人口的流动具有广阔的研究及应用前景, 各省市参赛队可以在这个领域建立模型寻求突破。” 鲜祖德:全国统计建模培训班讲话:大数据与统计 本文摘要 自20 世纪80 年代大数据概念产生以来,大数据的体量呈几何级数增长,大 数据的应用范围也越来越广泛。大数据具有6V 特征,即:Volume 、Value 、Variety、 Velocity、Vender、Veracity 。大数据的六大特征对统计模型也提出了最新的要求,要 求其能够对获取与发送方式自由灵活(Vender) 的、体量巨大(Volume)的、类型繁多 (Variety )的数据,进行快速(Velocity )处理,得出真实准确(Veracity) 的、具有巨 大的价值(Value )的结论。本文从这六点要求出发,使用山东省旅游局和中国移 动通信集团公司山东省分公司合作开发的“山东省重点景区游客流量监测和服务 系统”中的数据,运用列联表、ARIMA 模型、决策树、随机森林、支持向量机等 模型,从景区游客流量、来源地以及选择景区的参考指标等方面进行研究分析, 得出一些结论,以期能够帮助景区进行针对性的营销和管理,为旅游管理部门的 分析和决策提供支持,也在大数据研究方法应用方面进行一些有益的探索。本文 认为,对于大数据的分析应综合运用经典统计模型及机器学习算法模型,对照分 析,以得出更加准确全面的结论。 关键词:大数据;列联表;ARIMA ;机器学习算法模型 1 一、引言 大数据的概念最早出现于20 世纪80 年代初,阿尔文·托夫勒将大数据称为 “第三次浪潮的华彩乐章”。从此大数据开始走上历史的舞台。20 世纪 90 年代 中期到21 世纪前10 年,大数据在信息产业界和学术界开始引起广泛的关注,一 系列学术成果纷纷涌现出来,形成了大数据的最初定义特征:容量大(Volume )、 多样化(Variety )和速度快(Velocity )。2010 年之后,随着大数据的爆炸式增长, 各国纷纷将大数据提高到国家战略高度。2010 年英国政府正式出台数据开放网 站data.gov.uk ,使数据开放成为英国新政府的一个前进方向;2011 年澳大利亚政 府公布了《国家数字经济战略报告》,旨在确保2020 年基本完成国家宽带网络的 物理建设,推动澳大利亚成为世界数字经济的领军者;2012 年美国奥巴马政府 颁布了《大数据的研究和发展计划》,拟通过提高从大型复杂的数字数据集中提 取知识和观点的能力,进而加快美国科技进步的步伐,加强国家安全,并改进教 学与研究„„ 大数据在中国起步较晚,直到2012 年,中国计算机学会决定成立“中国计 算机学位大数据专家委员会”,标志着中国正式开展这方面研究。之后引发了中 国学界、业界、政府部门等各行各业投入到大数据这一汹涌的浪潮当中。 目前,关于大数据的特征形成了以下六个方面的共识:一是数据体量巨大 60 70 (Volume ),以EB (2 )、ZB (2 )作为计量单位。二是应用价值大(Value)。大数据 在经过精确分析后确实具有巨大的价值。三是数据类型繁多(Variety )。数据类型 包括结构化数据,半结构化数据和非结构化数据。四是处理速度快(Velocity )。 大数据往往以数据流的形式实时快速地产生,其价值的高低随着时空的变化而发 生变化,这要

文档评论(0)

1亿VIP精品文档

相关文档