- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文件系统MongodbHadoop 存取方案分析
存取方案分析
三种文件存取方案
海量日志的存取,既要考虑存的效率,也要兼顾查询统计的便捷性。根据目前的实际情况,我们考虑了三种方案:
将日志直接写入文件,采用grep的方式来查询,或者使用lucene来实现全文检索。
使用mongodb来存储日志。
使用hadoop来存储日志。
每一种方案都有各自的优缺点,对于第一种直接写写文件的方案,存的速度非常快。但是当文件量的逐渐增多,查询起来非常不方便。如果采用lucene来建索引,会耗费很多存储空间,而且需要手动来维护历史文件,压缩、转储。所以,采用文件存储的方案是一种非常原始的,不便于管理的方案。
Mongodb简介
MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。
是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。他支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是他支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。
主要功能特性有:面向集合存储,易存储对象类型的数据。模式自由。支持动态查询。支持完全索引,包含内部对象。支持查询。支持复制和故障恢复。使用高效的二进制数据存储,包括大型对象(如视频等)。自动处理碎片,以支持云计算层次的扩展性。支持RUBY,PYTHON,JAVA,C++,PHP,C#等多种语言。文件存储格式为BSON(一种JSON的扩展)。可通过网络访问。
它的特点是:
1. 无模式,易使用
2 易使用,查询与索引方式灵活,是最像SQL的Nosql
易部署,支持复制集、主备、互为主备、自动分片等特性
高性能、存储数据非常方便
Mongodb的不足之处:
1、在集群分片中的数据分布不均匀
2、单机可靠性比较差
3、大数据量持续插入,写入性能有较大波动
4、磁盘空间占用比较大
hadoop简介
一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。
Hadoop是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。
它主要有以下几个优点:
可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
Hadoop在大数据领域受到广泛青睐,facebook、yahoo、amazon、阿里巴巴、百度、华为、腾讯等互联网企业都在使用。其中 facebook和yahoo更是开源了许多优秀的hadoop辅助系统,如hive、Zookeeper。降低后续参与者的开发难度。
Hadoop也有缺点:
首先,它体系庞大,入门不易。
不适合低延迟数据访问,索引功能需要自己开发
无法高效存储大量小文件
Mongodb 和 hadoop两者的存取性能及特性对比
性能对比图
从测试结果看,mongodb的存储、查询速度都非常快,不管是逐条存储还是批量存储,都能达到每秒存储14000条1k的日志。而hadoop逐条存储性能较低,批量存储时性能也很好。
两者都很适合来存海量日志。技术成熟,文档也非常丰
您可能关注的文档
最近下载
- 驼乳粉的技术要求.pdf VIP
- 哈工大_理论力学_I(第6版)习题详解.pdf
- 2025年新高考数学一轮复习:函数的图象(九大题型)(讲义)(学生版+解析).pdf VIP
- 陶喆出轨道歉会PPT(源文件锐普独家首发)0708.pptx VIP
- 2025年新高考数学一轮复习:圆的方程(八大题型)(讲义)(学生版+解析).pdf VIP
- 2025年新高考数学一轮复习:数列求和(九大题型)(练习)(学生版+解析).pdf VIP
- 发酵驼乳粉的技术要求.pdf VIP
- 罗斯蒙特3051C压力变送器校准调试方法.doc VIP
- 视频监控系统工程质量管理体系和保证措施.docx VIP
- 660MW超超临界火电机组深度调峰经济性评估与对策.docx VIP
文档评论(0)