- 0
- 0
- 约5.05千字
- 约 6页
- 2017-09-02 发布于天津
- 举报
神话下的隐忧
Essential
——由Google File System所想到的
王仲远(web组)
引言:十年前,微软依靠Windows操作系统,成为IT业界的的神话;而十年后的今天,Google以其强大的互联网搜索能力征服了全世界,成为当今IT界最耀眼的公司之一。本文以Google的文件系统为切入点,介绍了Google File System的工作原理,论述了作者对Google File System与Datebase的一些思索和比较,试图探讨出一个全新的属于数据库人的研究方向。
一、李开复与Google中国
这是一个造星的时代,当一切成功都被神化以后,它外面所笼罩的美丽光环,使我们常常不能清醒地认识一个公司、一个人,他所起的作用,他所获得的真正成就。Google就是这样一个公司,李开复就是这样一个人。
去年,李开复来我们学校青年大讲堂作报告,他信誓旦旦地说“微软将会是我度过余生的一个地方”。但一年之后,言犹在耳,可是物是人非:他由微软全球副总裁的身份变为了Goolge中国区总裁。顿时,李开复成为国人关注的焦点,Goolge也成为了国人关注的焦点。
李开复的加盟,使得Google成为大学校园里一大批学生向往的地方。Google对我们来说,也似乎不再是那个遥不可及的在纳斯达克一上市就创造奇迹的地方,而是一个触手可及的承载着太多荣耀和梦想的地方。Goolge中国风暴席卷大学校园!
就如几年前的微软神话一样,Google中国也是大家心中的神话:宽松的工作环境,随手可取的零食,带着宠物上班……进入了Google就意味着站在了IT时代潮流的浪尖。但是,Google真的就是这么的完美无瑕吗?
二、Google人才观
正当大家对Google充满无限遐想的时候,Google举行了一个大型的实习生招聘活动。所有人都跃跃欲试,期待着Google再给大家一个惊喜。但是,当笔试卷子发下来时,所有人都惊讶了,笔试题目是如此的平凡无奇,全部是最基本的算法题和计算机知识。于是,许多人又叫嚣着“Google神话破灭了!”。
但真的是神话破灭了吗,或者是Google并非是一个神化般的公司呢?
我们依然清晰地记着,去年10月,周韶宁周韶宁两位创始人谢尔盖·布林和拉里·佩吉的认同ile System!
那么,Google File System与以往的文件系统有什么区别吗?
Google的文件系统是一个大规模的分布式文件系统,它能够处理大规模的分布式数据。它包括控制服务器(Master)和块服务器(Chunkservers),两者之间的信息传输通过GFS的客户端(Client)实现。控制服务器负责管理元数据,它主要存储文件和块的名空间、文件到块之间的映射关系以及每一个块副本的存储位置;块服务器存储块数据,一个典型的块大小为64M,它通过懒惰算法(Lazy space allocation)来管理存储在它上面的块。控制服务器通过文件系统客户端向块服务器发送数据请求,而块服务器则会将取得的数据直接返回给文件系统客户端[2]。在块服务器中,一个块可能有多个备份,这样做的目的是为了保障数据的安全性,当然,也能够实现负载均衡。
这就是Google文件系统的体系结构。然而,光有一个良好的体系结构是不够的,只有具体实现才是硬道理,因此我们需要好好看看建立在Google File System上的BigTable是如何工作的。
四、BigTable
BigTable,顾名思义,就是一张“大表”,是一张稀疏多维图。Google于2004年初开始研发,到现在它已经运行了两年多,基本上能够满足Google的需求:处理海量数据,实现高速存储与查找。
BigTable由行和列组成,每个单元(BigTable Cell)是一个三元组,由行、列、时间戳组成。在一个典型的单元格中,行可以是URLs,列可以是属性/规则,时间戳则是用来标识版本的,它可以在多个备份中,将最新的信息提供给用户[1]。
BigTable就如它的名字一样,是一张“大表”,以至于为了便于管理,需要将Bigtable按照行拆分成Tablets。如果说BigTable是一块布,Tablets就好像是从这块布上扯下的布条。即使这样,Tablets也是不小的。每个Tablets大约有100~200M,而每台机器大约会存储100个左右的Tablets。由于Google采用的是廉价的PC机,而不是使用高端的服务器,因此采用Tablets,就将BitTable化整为零,分布式地存放在各台PC机上。
同时,由于采用了Tablets,也非常容易地实现了负载均衡和快速恢复。如果某台机器的某个Tablets经常被访问,则它可以将原来存储在它上面的其它Tablets转移到别的机器上,然后专门负责这个Tablets,而这个Tablets也可以完全载入内存,
原创力文档

文档评论(0)