毕业设计外文文献—Hadoop.docxVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
附录附录是对于一些不宜放在正文中,但又直接反映完成工作的成果内容。如图纸、实验数据、计算机程序等材料附于毕业设计之后,附录所包含的材料是毕业设计的重要组成部分。A 外文翻译—原文2000实词以上。部分 附录是对于一些不宜放在正文中,但又直接反映完成工作的成果内容。如图纸、实验数据、计算机程序等材料附于毕业设计之后,附录所包含的材料是毕业设计的重要组成部分。 2000实词以上。 Hadoop权威指南 数据!数据标题应该简短、明确、有概括性。标题字数要适当,不宜超过 标题应该简短、明确、有概括性。标题字数要适当,不宜超过20个字。如果有些细节必须放进标题,可以分成主标题和副标题。 我们生活在数据时代。不容易测量存储的电子数据总量,但国际数据中心的一项估计显示,“数字宇宙”的大小为4.4兆字节。2013年,预计到2020年将增长10倍,达到44泽塔字节。1 Zettabyte是10 21。字节,或相当于1000字节、100万字节或10亿字节兆字节。对于世界上的每个人来说,这不仅仅是一个磁盘驱动器。大量的数据来自许多来源。考虑以下内容: ?纽约证券交易所每天产生约4-5兆字节的数据。 ?Facebook拥有超过2400亿张照片,以每月7千兆字节的速度增长。 ?祖传网站,系谱网站,存储大约10千兆字节的数据。 ?Internet存档存储大约18.5千兆字节的数据。 ?瑞士日内瓦附近的大型强子对撞机产生约30千兆字节的能量。 此外还有大量数据。但是你可能会想它对自己有何影响。大部分数据被锁定在最大的网页内容里面(如搜索引擎)或者是金融和科学机构,对不对?是不是所谓的大数据的出现会影响到较小的组织或个人? 我认为是这样的。以照片为例,我妻子的祖父是一个狂热的摄影爱好者,并且他成人之后,几乎一直都在拍照片。他的所有照片(中等格式、幻灯片和35 mm胶片),在扫描成高解析度照片时,占了大约10 GB的空间。相比之下,我家去年一年用数码相机拍摄的照片就占用了5 GB的空间。我家产生照片数据的速度是我妻子祖父的35倍!并且,随着拍摄更多的照片变得越来越容易,这个速度还在增加中。 更常见的情况是,个人数据的产生量正在快速地增长。微软研究院的MyLifeBits项目显示,在不久的将来,个人信息档案将可能成为普遍现象。MyLifeBits是这样的一个实验:一个人与外界的联系(电话、邮件和文件)被抓取和存储供以后访问。收集的数据包括每分钟拍摄的照片等,导致整个数据量达到每月1 GB的大小。当存储成本下降到使其可以存储连续的音频和视频时,服务于未来MyLifeBits项目的数据量将是现在的许多倍。 个人数据的增长的确是大势所趋,但更重要的是,计算机所产生的数据可能比人所产生的数据更大。机器日志、RFID读取器、传感器网络、车载GPS和零售交易数据等,这些都会促使数据之山越来越高。 公开发布的数据量也在逐年增加。作为组织或企业,再也不能只管理自己的数据,未来的成功在很大程度上取决于它是否能从其他组织的数据中提取出价值。 这方面的先锋(如亚马逊网络服务器、I或者)的公共数据集,它们的存在就在于促进信息共享,任何人都可以共享并自由(或以AWS平台的形式,或以适度的价格)下载和分析这些数据。不同来源的信息混合处理后会带来意外的效果和至今难以想像的应用。 以A项目为例,这是一个研究Flickr网站上天体爱好者群中新照片的项目。它分析每一张上传的照片,并确定它是天空的哪一部分,或者是否是有趣的天体,如恒星或者星系。虽然这只是一个带实验性质的新服务,但是它显示了数据(这里特指摄影照片)的可用性并且被用来进行某些活动(图像分析),而这些活动很多时候并不是数据创建者预先能够想像到的。 有句话是这么说的:算法再好,通常也难敌更多的数据。意思是说对于某些问题(譬如基于既往偏好生成的电影和音乐推荐),不论你的算法有多么猛,它们总是会在更多的数据面前无能为力(更不用说没有优化过的算法了)。 现在,我们有一个好消息和一个坏消息。好消息是有海量数据!坏消息是我们正在为存储和分析这些数据而奋斗不息。 问题很简单:多年来硬盘存储容量快速增加的同时,访问速度-- 数据从硬盘读取的速度-- 却未能与时俱进。1990年,一个普通的硬盘驱动器可存储1370 MB的数据并拥有4.4 MB/s的传输速度 ,所以,只需五分钟的时间就可以读取整个磁盘的数据。20年过去了,1 TB级别的磁盘驱动器是很正常的,但是数据传输的速度却在100 MB/s左右。所以它需要花两个半小时以上的时间读取整个驱动器的数据。 从一个驱动器上读取所有的数据需要很长的时间,写甚至更慢。一个很简单的减少读取时间的办法是同时从多个磁盘上读取数据。试想一下,我们拥有100个磁盘,每个存储百分之一的数据。如果它们并行运行,那么不到两分钟我

文档评论(0)

AnDyqaz + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档