- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二篇小论文--海量数据存储研究 背景意义
研究背景
随着信息科技的发展,人们进入了数字信息时代,各种电子数据产生的越来越多,学校、企业、政府机关等大量纸质的数据已经被电子化。各种处理和记录系统产生的海量的数据;各种WEB应用网站每天产生的日志数据和每天用户上传的数据等都达到TB等级,如此海量数据的存储和备份已经成为一个热点问题。大量的数据混合处理之后可能会收到不同的效果,对于某些应用,例如用户行为分析,一般算法再好也不如大量的数据带来的效果更好,而这些分析的前提是数据如何存储。从这些角度上看,数据已经成为一种财富,很多公司都很重视数据这种无形的资产。例如目前很多公司在做的一项工作就是基于用户操作日志的行为分析,从分析结果中获得潜在的商机。但是快速分析的前提是如何保存这些日志数据才能提供更快的读取速度,以便加快算法产出分析的结果,同时还要保证这些数据高效的存储。
数据的存储面临的问题是数据量增加的同时,物理储存设备的访问速度没有增加。数据的一般存储方式是使用本地化存储或者使用RAID技术,本地化存储存在着严重的硬件速度瓶颈。单机的CPU、内存和硬盘等硬件有限,存储效率都停留在很低的级别,而且不具备容灾备份的功能,不能满足^^量数据的存储的需求,RAID技术采用分布式存储,利用多台机器的性能来提高系统整体的性能,提升了系统的存储效率,同时RAID具有容错的功能。但是面对海量数据的存储,使用RAID的方式需要花费巨大的资金,同时RAID虽然具有备份的能力,但是存储策略和自动修复功能都不完善。
面对如此海量数据的存储和分析的问题,人们提出了云计算解决方案,而且越来越多的科研机构和企业开始关注云计算这种新的计算模式。云计算框架的发展,带来了商业模式和计算方式的革命性转变,完全改变了过去数据主要集中在本地存储和本地计算的传统模式,使得企业机构、学校实验室和科研机构能够方
便快捷地通过网络方式提升系统的计算力和存储空间,极大地降低了这些地方的硬件等基础设施的浪费和闲置,有效的提高了人力资源的效率,为企业、学校和科研机构节约了大量的资金和人力支出。
云计算的存储系统是伴随云计算技术发展出来的一种存储模式,它通过网络技术和分布式文件系统将分散的存储设备连接成一个虚拟的整体,组合成一个高效、快速、安全、可靠的存储系统。存储系统上层通过云框架软件组织硬件提供数据存储和高速访问的服务。本文基于此研究如何满足海量数据的高速存储,目前的云框架的存储策略还不是很成熟,而且每种存储策略都是适应实际需求而产生的,所以本文主要是根据实际需求,基于云计算框架设计一种优化的存储策略.来满足我们的实际情况的需要。
云计算已经成为新时代的计算模型和储存模型。云计算综合了虚拟化技术、分布式计算、并行计算、网格计算等技术,所以云计算具有更加优秀的架构来存储数据。云计算的分布式文件系统具有容错性、安全性的特点。云计算的实现方式是利用数以万计的廉价机器和存储设备搭建存储平台和计算平台,这些异构的设备通过云平台变成高可靠、高可扩展的系统,提供给用户存储和计算的云平台。谷歌云计算框架的存储系统为GFS(Google File System),GFS与传统的分布式文件系统有着很多相同的设计目标,例如,性能、可伸缩性、可靠性和可用性等。谷歌的设计还基于谷一歌对他们自己的应用的负载情况和技术环境的观察,GFS和早期文件系统的假设都有明显的不同,谷歌已经针对不同的应用部署了多套GFS集群。最大的一个集群拥有超过1000个存储节点,超过300TB的硬盘空间,被不同机器上的数百个客户端连续不断的频繁访问。这种设计思想能很好的满足海量数据的存储,因此谷歌的GFS文件系统一直被人们所提倡。Hadoop框架的HDFS文件系统是谷歌的GFS文件系统的开源实现,实现了 GFS的功能,具有高度容错性、可靠性和稳定性。
Hadoop 就是近年来应用最多的分布式文件系统之一。通过Hadoop可以完成海量数据的存储和分析。
2.研究意义
Nutch是一个开源的搜索引擎,它使用Java语言开发,具有跨平台应用的优点,Nutch作为网络爬虫和lucene的结合,功能上极其强悍,每个月数以亿计的网页爬取量,网页搜索的高速,开源的功能剖析都是我们选择研究它的关键因素,同时Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎, Nutch能够做到每个月爬取几十亿网页,并为这些网页维护一个索引,对索引文件进行每秒上千次的搜索,最后能够提供高质量的搜索结果。
此外Nutch中基于Hadoop的MapReduce编程模型和分布式文件系统HDFS,都可以让爬取的海量数据可以快速高效地实现运行在数百台乃至数千数万台计算机上,能够在短时间内完成海量数据的计算和分析。
3.研究目的(解决什么主要问题)
随着现在科学技术的飞速发展,网络上信息的规
原创力文档


文档评论(0)