基于cite spaceⅢ对于大数据研究的可视化分析.docVIP

基于cite spaceⅢ对于大数据研究的可视化分析.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于cite spaceⅢ对于大数据研究的可视化分析   摘要:本文结合文献计量学的方法和citespace软件与excel软件,对2005―2015年间的web of scienceTM 核心合集收录的2182篇大数据研究领域的文献分别进行了研究现状、知识基础、研究热点、研究前沿进行了可视化分析,进而揭示了国际大数据领域研究的特点规律及动态过程。   关键词:大数据;大数据研究前沿;cite spaceⅢ   中图分类号:G40-057 文献识别码:A 文章编号:1001-828X(2017)003-0-03   引言   随着智能手机、平板电脑等越来越多的智能移动终端被用户所接受,而随着用户量的迅猛增长,数据也在以惊人的速度增长和累积。正是在全球数据暴涨的背景下,大数据,一个用来形容这种庞大的数据集的名词应运而生。目前,学术界、政界、工商界等都对其产生了浓厚的兴趣。大数据是一个抽象的概念,不同领域的专家学者因对其关注的方向不同,所给出的定义也不相同。   美国国家标准和技术研究院(NIST)从学术角度给大数据做了一个定义“大数据是指其数据量、采集速度或者数据表示限制了传统关系型方法进行有效分析的能力,或需要使用重要的水平缩放技术来实现高效处理的数据”。   对于大数据的特征的描述,目前比较流行的是“3VS”和“4VS”两种。“3VS”是由Gartner公司的分析师道格莱尼提出的,他将大数据描述为数量(volume)??大、种类(variety)繁多、速度(velocity)快且具有即时性的数据集。   “4VS”则是由国际知名数据公司IDC提出的,在其发布的报告中是这样描述大数据的特征的“数量浩大、种类繁多、生成快速、价值巨大单密度低”。正是由于学者专家高涨的研究热情,探索理清大数据的发展方向,明确大数据的研究前沿,理清大数据的知识基础对于大数据研究和管理则显得尤为重要。   一、数据来源与研究方法   本文所选取的数据库具体为科学引文索引SCIE(Science Citation Index expand),检索式为”TS=big data AND TI=big data”,时间为2005―2015,检索结果有2,182条记录,来自web of science核心合集。本文选用可视化分析软件为陈超美团队所开发的CiteSpace III来对所获取到的文献数据进行分析。将之前检索并下载的引文记录放入到data文件夹中,使用CiteSpace III创建一个新的project,时间跨度选择为2005―2015,选择每一年为一个时间段,termtypes选择burstterms,并分别选择author,institution,keyword,cited author,cited reference,cited journal进行分析,设定阈值为:c(2,2,20),cc(3,3,20),ccv(3,3,20)。   二、文献产量分析   文献计量统计是科学研究中重要的研究方法, 它能反映某一学科领域的文献随时间变化的一个分布状况以及研究主题的热度情况。表一为统计表,图一为每年散点图及趋势预测图。对于文献增长的规律用多项式函数进行拟合,得到拟合曲线y = -1.27 x4 + 10223.44 x3 -64 x2 + 41304216104.99 x - 20755444911937.60 ,R? = 0.92 ,接近于1,且曲线与数据点较为吻合,说明近期内文献数量将按照此曲线增长。   根据图形我们可以把近十年来对大数据的研究分为两个阶段:   1.萌芽期(2010年以前):2006年,大数据技术形成并运行运算与分布式系统,为大数据的深入研究奠定基础。2007年1月吉姆格雷――数据库软件先驱,第一次将这种转变称为第四范式,他认为面对这种范式,只能开发新一代的计算工具来处理海量数据。2008年,《Nature》在开辟了Big Data专栏,同年计算机社区联盟(Computing Community Consortium)发表了报告Big Data Computing:Creating Revolutionary Breakthroughs in Commerce, Science and Society[1],阐述解决大数据问题的一些方法和技术。2010年2月,肯尼斯库克尔在《经济学人》上发表报告《数据,无所不在的数据》[2]。   2.增长期(2011-2015):2011 年2 月为了对科学研究中大数据的问题及其重要性进行讨论,Science杂志出版专刊Dealing with Data。同年5月,继物联网,云计算之后,“大数据”成为又一个广受关注的名词,全球知名咨询公司麦肯

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档