- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据发展历程总结
大数据发展历程总结
【摘要】 随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。大数据作为一项新兴且潜在价值巨大的资产,正极大地影响并改变着宏观经济、农业、商业、金融、医疗保健、社会安全等领域。本文通过对国内外大数据相关文献的回顾,结合最新国际国内发展情况,包括亲身经历,对大数据的国际国内发展历程和现状进行了较为详尽的介绍,以期对大数据研究相关领域和人员提供一点有用的参考。
【关键词】 大数据 云计算 发展历程
一、大数据的概念
大数据(big data),又称海量资料,是由数量巨大、结构复杂、类型众多的数据构成的数据集合,其所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为能帮助政府机构和企业进行管理、决策的资讯。
二、大数据的特点
大数据通常具有4V1O的特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Online(在线)。
Volume(大量),即数据体量庞大,包括采集、存储和计算的量都非常大。数据时代刚刚来临的时候,一般的数据存储容量、体积多以M为单位。近年来各种各样的现代IT应用设备和网络正在飞速产生和承载大量数据,使数据的增加呈现大型数据集形态,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。
Variety(多样),即数据类型繁多。数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。
Value(价值),即价值密度低。由于数据产生量巨大且速度非常快,必然形成各种有效数据和无效数据错杂的状态,因此数据价值的密度大大降低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。但是,众所周知,大数据的合理利用会给使用者带来很高的价值回报,所以,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。
Velocity(高速),即要求处理速度快,从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。
腾讯社交网络事业群数据中心前总监傅志华还提出了大数据的第五个特点1O:即:数据是在线的(Online)。数据是永远在线的,是随时能调用和计算的,这是大数据区别于传统数据最大的特征。
三、大数据的发展历程
1、国际发展历程
大数据的历史最早可以追溯到十八世纪八十年代,1887―1890美国统计学家赫尔曼?霍尔瑞斯为了统计1890年的人口普查数据,发明了一台电动器来读取卡片上的洞数,该设备让美国用一年时间就完成了原本耗时8年的人口普查活动,由此在全球范围内引发了数据处理的新纪元。1944年,卫斯理大学图书馆员弗莱蒙特?雷德对大数据时代的到来进行了预见。他出版了《学者与研究型图书馆的未来》一书,在书中他估计美国高校图书馆的规模每16年就翻一番。1961年德里克?普赖斯出版了《巴比伦以来的科学》,在这本书中,普赖斯通过观察科学期刊和论文的增长规律来研究科学知识的增长。他得出以下结论:新期刊的数量以指数方式增长而不是以线性方式增长,每15年翻一番,每50年以10为指数倍进行增长。普赖斯将其称之为“指数增长规律”。
1980年4月I?A?特詹姆斯兰德在第四届美国电气和电子工程师协会(IEEE)“大规模存储系统专题研讨会”上做了一个报告,题为《我们该何去何从?》。在报告中,他指出所有数据正在被无选择地保存以避免错失有价值的信息。1981年匈牙利中央统计办公室开始实施了一项调查国家信息产业的研究项目,包括以比特为单位计量信息量。这项研究一直持续至今。1986年7月哈尔?B?贝克尔在《数据通信》上发表了《用户真的能够以今天或者明天的速度吸收数据吗?》一文,预计数据记录密度将大幅增长。
1993年,匈牙利中央统计办公室首席科学家伊斯特万?迪恩斯编制了一本国家信息账户的标准体系手册。1997年10月,迈克尔?考克斯和大卫?埃尔斯沃思在第八届美国电气和电子工程师协会(IEEE)关于可视化的会议论文集中发表了《为外存模型可视化而应用控制程序请求页面调度》的文章。这是在美国计算机学会的数字图书馆中第一篇使用“大数据”这一术语的文章。1999年8月,史蒂夫?布赖森、大卫?肯怀特、迈克尔?考克斯、大卫?埃尔斯沃思以及罗伯特?海门斯在《美国计算机协会通讯》上发表了《千兆字节数据集的实时性可视化探索》一文。这是《美国计算机协会通讯》上第一篇使用“大数据”这一术语的文章。
2001年,美国一家在信息技术研究领域具有权威地位的咨询公司Gartner首次开发了大数据模型。2001年2月,梅塔集团分
您可能关注的文档
- 大学生考试心态剖析.doc
- 大学生职业决策中家庭因素剖析及对策.doc
- 大学生考试态度初析.doc
- 大学生职业化之路初析.doc
- 大学生考试作弊心理剖析及对策.doc
- 大学生职业意识训练初析.doc
- 大学生职业幸福感教育剖析.doc
- 大学生考试作弊成因剖析及对策初探.doc
- 大学生考试作弊行为剖析及预防对策.doc
- 大学生职业指导工作实践剖析.doc
- 2025至2030中国移动治疗台行业发展研究与产业战略规划分析评估报告.docx
- 2025至2030链激酶行业细分市场及应用领域与趋势展望研究报告.docx
- 2025至2030爆炸物探测扫描仪行业市场占有率及有效策略与实施路径评估报告.docx
- 2025至2030四川省智能制造行业细分市场及应用领域与趋势展望研究报告.docx
- 2026届高三二轮复习试题政治大单元突破练1生产资料所有制与分配制度含解析.docx
- 2026届高三二轮复习试题政治大单元突破练16哲学基本思想与辩证唯物论含解析.docx
- 2026届高三二轮复习试题政治大单元突破练2社会主义市场经济体制含解析.docx
- 浙江省衢州市五校联盟2025-2026学年高二上学期期中联考技术试题-高中信息技术含解析.docx
- 浙江省金丽衢十二校2026届高三上学期11月联考政治试题含解析.docx
- 2026届高三二轮复习试题政治大单元突破练7领导力量:中国共产党的领导含解析.docx
原创力文档


文档评论(0)