- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于itespaeⅢ对于大数据研究的可视化分析..doc
基于cite space III对于大数据研究的可视化分析
本文结合文献计量学的方法和citespace软件与excel软件,
对2005-2015年间的web of scienceTM核心合集收录的2182篇大数据
研究领域的文献分别进行了研究现状、知识基础、研究热点、研究前沿进
行了可视化分析,进而揭示了国际大数据领域研宄的特点规律及动态过
程。
关键词:大数据;大数据研究前沿;cite spacelll
:G40-057文献识别码:A :1001-828X (2017)
003-0-03
引言
随着智能手机、平板电脑等越来越多的智能移动终端被用户所接受,
而随着用户量的迅猛增长,数据也在以惊人的速度增长和累积。正是在全
球数据暴涨的背景下,大数据,一个用来形容这种庞大的数据集的名词应
运而生。目前,学术界、政界、工商界等都对其产生了浓厚的兴趣。大数
据是一个抽象的概念,不同领域的专家学者因对其关注的方向不同,所给
出的定义也不相同。
美国国家标准和技术研究院(NIST)从学术角度给大数据做了一个定
义“大数据是指其数椐量、采集速度或者数椐表示限制了传统关系型方法 进行有效分析的能力,或需要使用重要的水平缩放技术来实现高效处理的
数据”。
对于大数据的特征的描述,目前比较流行的是“3VS”和“4VS”两种。
“3VS”是由Gartner公司的分析师道格莱尼提出的,他将大数据描述为
数量(volume) ??大、种类(variety)繁多、速度(velocity)快且具
有即时性的数据集。
“4VS”则是由国际知名数据公司IDC提出的,在其发布的报告屮是
这样描述大数据的特征的“数量浩大、种类繁多、生成快速、价值巨大单
密度低”。正是由于学者专家高涨的研究热情,探索理清大数据的发展方
向,明确大数据的研究前沿,理清大数据的知识基础对于大数据研究和管
理则显得尤为重要。
一、 数据来源与研究方法
本文所选取的数据席具体为科学引文索引SCIE (Science Citation
Index expand),检索式为” TS=big data AND TT=big data”,时间为 2005 —
2015,检索结果有2,182条记录,来自web of science核心合集。本文
选用可视化分析软件为陈超美团队所开发的CiteSpace 111来对所获取到
的文献数据进行分析。将之前检索并下载的引文记录放入到data文件夹
中,使用CiteSpace III创建一个新的project,时间跨度选择为2005 — 2015,选择每一年为一个时间段,termtypes选择burst terms,并分别选 择 author, institution, keyword, cited author, cited reference,
cited journal 进行分析,设定阈值为:c (2,2,20),cc (3,3,20),
ccv (3, 3, 20)。
二、 文献产量分析 文献计量统计是科学研究中重要的研究方法,它能反映某一学科领
域的文献随时间变化的一个分布状况以及研宄主题的热度情况。表一为统 计表,图一为每年散点图及趋势预测图。对于文献增长的规律用多项式函 数进行拟合,得到拟合曲线y = -1.27 x4 + 10223. 44 x3 - 64
x2 + 41304216104. 99 x - 20755444911937. 60 , R? = 0. 92 ,接近于 1,
且曲线与数据点较为吻合,说明近期内文献数量将按照此曲线增长。
根据图形我们可以把近十年来对大数据的研宄分为两个阶段:
萌芽期(2010年以前):2006年,大数据技术形成并运行运算与分
布式系统,为大数据的深入研宄奠定基础。2007年1月吉姆格雷一一数据
库软件先驱,第一次将这种转变称为第四范式,他认为面对这种范式,只
能开发新一代的计算工具来处理海量数据。2008年,《Nature》在开辟了 Big Data 专栏,同年计算机社区联盟(Computing Community Consortium)
发表了报告 Big Data Computing: Creating Revolutionary Breakthroughs
in Commerce, Science and Society [1],阐述解决大数掘问题的一些方
法和技术。2010年2月,肯尼斯库克尔在《经济学人》上发表报告《数据,
无所不在的数据》[2]。
增长期(2011-2015): 2011年2月为了对科学研宄中大数据的问
题及其重要性进行讨论,Science杂志出版专刊Dealing with Data。同
年5月,继物联网,云计算之后,“大数据”成为又一个广受关
原创力文档


文档评论(0)