认识大数据(一).docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
认识大数据(一) 也谈大数据(一) 记录中的世界 2015年9月24日 孙波 今天去听了个讲座,关于大数据和云计算,主讲老师主要围绕大数据的一些基础和应用示例以及数据安全方面,有一点收获,有一点想法,很多老师没有提到的东西,还有些自己对大数据理解已经沉淀很久了,特此写下来。主要是关于大数据的认识。 一、大数据的概念 讲座上,老师讲的大数据概念,几乎和百度百科上的一样:大数据(big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。然而这样的“大数据”对我们又有什么价值呢?我觉得,我们所提到的大数据,必须是以能从中挖掘出一定价值的,能指导我们现实生活作为前提条件的。 我理解的大数据有两个层面: 界”。“认知世界”是人类试图去探索“客观世界”,去理解“客观世界”的成果。通常“认知世界”是一部分人类专注于对“记录世界”的分析研究和归纳总结后产生的。 为了更好的说明这三个世界,我举一个例子。 描述1:孙波生活在地球上,地球上经常有火山喷发。 描述2:孙波每次打喷嚏都会写进日记。地球上每次火山喷发也都有人类记录。 描述3:若干年后,通过这些记录,人们有一个惊人的发现:孙波每打100个喷嚏,就正好会有一座火山喷发,于是科学家推导出这个理论:每当孙波打喷嚏的次数能被100整除,就会发生火山喷发。从此,每当孙波打90个喷嚏的时候,火山周围的村民就会搬迁或者躲到地下。 上面三个描述,描述1就是客观世界,描述2就是记录世界,描述3就是认知世界。虽然例子举得荒诞,但是人类文明就是在这样三个世界中轮转进步的,比如太阳历和月亮历的建立,看云、看日晕、看月晕识天气,等等那些古老的常识,就是通过对客观世界的观察记录,然后再在记录中分析总结,得出结论,人类对这些推导和理论,在一开始往往是知其然而不知其所以然的,新的研究会解答之前的疑问,却会带来新的问题。 事实上,人类科学文明就好比在剥一个由客观现实做成的洋葱,每剥开一层就是科学文明有一次进步,这个洋葱会越剥越小,但是永远剥不到核心,可以一直剥下去。 这个就像儿子问我的问题:“为什们蜻蜓低飞就是要下雨了?”,“因为下雨前气压低湿度大,飞虫翅膀湿了飞不高”;“为什么翅膀湿了就飞不高?”,“因为小水珠比较重!”;“为什么小水珠重?”,“因为水的密度比空气大!”;“为什么水的密度大就重?”,“因为万有引力,质量越大,引力越大!”,“什么是万有引力?”“……”。 其实,当年劳动人民看到低飞的蜻蜓就知道要下雨,根本不知道后面这么多为什么。而万有引力也不是问题的终点,至少目前的相对论指出:万有引力的根本是质量对时空的扭曲。而即便是大名鼎鼎的“相对论”,我儿子也能大胆的问上更多个“为什么?” 三、记录世界的重要性 很多时候,人类对客观世界进行了记录,然后要在很久之后才能发现其中的规律,产生新的认知理论。因此,记录世界是人类主观意识下,对客观世界的映射,而其中蕴藏的秘密,或许等待着我们去发现。 如实、客观、标准化的记录,并且该记录可以长期保存,准确还原,这样的记录具有最大的价值。 四、“大数据”时代为什么现在到来 先让我们回到“大数据”的官方定义,以及它的特性,我们看到,大数据有以下几个特性: 容量(Volume):数据的大小决定所考虑的数据的价值的和潜在的信息; 种类(Variety):数据类型的多样性; 速度(Velocity):指获得数据的速度; 可变性(Variability):妨碍了处理和有效地管理数据的过程。 真实性(Veracity):数据的质量; 复杂性(Complexity):数据量巨大,来源多渠道; 大数据为什么现在到来?因为现在的人类技术让“大数据”有了存在的可能。 记得1997年的时候,我在大学念书,好友汪明写信告诉我,他买了一个4.3G的大脚硬盘,哇!4.3G啊,让我激动不已,那时候还是用10多张1.44M软盘装win95的年代,一张600M光盘里有200多个游戏,就像宝贝一样,我这个计算机专业的人家里,硬盘是540M的,还分了C:D:E:F:4个区,现在人家居然买了4.3G的硬盘。 别的方面,我就不再讲一遍计算机的发展史了,知名的摩尔定律说明了一切。 据我所知,目前的大数据相关概念,其实很早以前就有了,当年我学过一门课程叫做“数据挖掘”。在某些时候,其研究的对象,就类似与目前的“大数据”,只是很多时候,供分析研究的数据仅限于专业领域,其复杂性,多样性和实时性不足,这一方面和“大数据”理论有偏差。 而互联网发展到大约2010年,智能手机把移动数据终端,GPS放到每个人的口袋里,这可以说是一个“大数据

文档评论(0)

158****9567 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档