- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
?
?
中国大数据与统计学发展的需求预测模型
?
?
林扬啸
摘要:大数据是21世纪的热点话题之一,统计学是传统的数据分析学科。利用百度指数提供的“用户关注度”功能,本文选取2012年-2016年5年260周的百度周平均搜索指数为研究对象,以百度搜索指数来反映社会关注热度,研究大数据与统计学关注热度之间有无相关性,以及大数据搜索指数发展的趋势变化。根据图形分析与相关系数的计算,可知大数据与统计学搜索热度呈现正相关关系,该关系线性程度不大,多为非线性关系。根据大数据的季平均搜索指数、每四周平均搜索指数的变化趋势研究表明,大数据搜索指数不存在明显季节性,存在明显的正趋势性;其搜索熱度自2012年初至2015年2季度以来呈明显上升趋势,其后增长速率放缓,呈现更为显著的波动性,由此可知2015年2季度为其明显的一个转折点,符合其发展趋势的模型有修正指数模型,以及龚珀兹曲线模型和皮尔曲线模型这两个生长曲线模型,结果显示三个模型的拟合度均较理想,其中龚珀兹曲线的拟合度最高。根据拟合结果,从大数据搜索指数反映的社会关注热度来看,大数据搜索指数的发展已趋于饱和趋势,其饱和值为4300左右。
关键词:大数据;统计学;百度指数;趋势外推
:F27文献识别码:A:1001-828X(2017)001-0000-02
引言
现代社会,数据量呈爆炸式增长趋势,数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。2012年以来,大数据一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。而统计学作为传统的数据分析方法,在拥有海量数据的现代社会既有着巨大的机遇,但由于大数据突破了传统统计学关于样本和总体界定等等限制,也对传统统计学的分析方法提出了前所未有的冲击和挑战。在现实生活中,并没有一门基于大数据的专业产生,各大企业往往通过招收统计学、计算机、数学等相关专业的人才来满足其大数据分析工作的要求,尽管如此,关于大数据的热门是否捧热了统计学之类的相关学科的说法一直众说纷纭;此外经过了几年的对大数据关注的大热,市场逐渐对其回归理性,甚至出现了“大数据泡沫”这样的质疑声音。本文借助百度搜索指数,对2012年-2015年每一周大数据、统计学两词条的反映其关注热度的搜索指数进行定性、定量分析,实现以下目的:
观察从百度搜索指数中反映出的人们对于大数据、统计学度的变化趋势,了解在人们关注度方面二者有无相关性、有怎样的相关性,即大数据的大热有没有带来统计学关注度的变化。
通过建立统计模型,观察大数据关注热度5年来的变化,了解现实中其在关注度发展过程中所处的阶段,即现实中对大数据的关注依然处于上升阶段还是已经趋于饱和。采用定量、定性结合的分析方法,将统计学和大数据的搜索指数时间序列作线图,并计算线性相关系数,观察两者的变化规律,并计算两者有无线性相关关系。为满足消除随机性波动和保留足够数据量的需要,分别计算大数据搜索指数的每四周、每季度加权平均值。观察图形有无季节性、周期性波动;观察图形是否存在转折点,以此为基础选择统计模型。根据图形识别的结果,建立可能的统计模型,并通过比较R方值的方法来选择适当的模型。
一、中国统计学发展与大数据发展的相关性分析
用横坐标表示周次,纵坐标表示搜索指数,将大数据和统计学的搜索指数时间序列在一个图中分别做折线图,从图像中可以看出,57周以前,统计学的搜索热度大于大数据的搜索热度,57周以后,大数据搜索热度逐渐超过统计学搜索热度。90周之后,大数据和统计学的变动趋势呈现一定的相似性,例如都在214周时达到谷值,而后回升。在178周大数据搜索达到峰值,182周统计学搜索量达到峰值,在此期间统计学的增长略落后于大数据的增长,但是分布的形状大体一致。
2.季平均值线性相关系数=0.292112357
结果分析:两组数据的线性相关程度都不高,其中季平均线性相关系数略高于周平均线性相关系数。说明大数据与统计学的搜索指数之间并不存在明显的线性相关关系,但是从图中看出二者变化趋势具有相似性,因此猜测二者可能具有某种非线性相关关系。
因为相关关系并不等于因果关系,因此对于如上结果我们做出两种假设:
在90周以后,统计学的分布类似并且略落后于大数据的增长,这可能是由于人们对于大数据的关注,引发了人们对于统计学这个相关学科的关注。
两者类似的分布形态,可能是由于全国所有用户搜索频次的周期性、随机性变动所引致的,大数据、统计学搜索指数变动之间并没有直接的因果关系。
二、中国大数据需求量预测模型
由于原始数据有260周,波动性过大,为了得到更为准确的结论,我们仅对其按每季度、每四周两种方式计算加权平均值得到的时间序列作讨
文档评论(0)