- 2
- 0
- 约8.38千字
- 约 7页
- 2016-11-26 发布于重庆
- 举报
HBase與BigTable的比较
HBase与BigTable的比较(翻译)
博客分类:
Hadoop
HBaseHadoopMapreduce数据结构配置管理
知,HBase是Google的BigTable架构的一个开源实现。但是我个人觉得,要做到充分了解下面两点还是有点困难的:一 HBase涵盖了BigTable规范的哪些部分?二 HBase与BigTable仍然有哪些区别?下面我将对这两个系统做些比较。在做比较之前,我要指出一个事实:HBase是非常接近BigTable论文描述的东西。撇开一些细微的不同,比如HBase 0.20使用ZooKeeper做它的分布式协调服务,HBase已经基本实现了BigTable所有的功能,所以我下面的篇幅重点落在它们细微的区别上,当然也可以说是HBase小组正在努力改进的地方上。比较范围本文比较的是基于七年前发表的论文(OSDI’06)所描叙的Google BigTable系统,该系统从2005年开始运作。就在论文发表的2006年末到2007年初,作为Hadoop的子项目的HBase也产生了。在那时,HBase的版本是0.15.0. 如今大约2年过去了,Hadoop 0.20.1和HBase 0.20.2都已发布,你当然希望有一些真正的改进。要知道我所比较的是一篇14页的技术论文和一个从头到脚都一览无余的开源项目。所以下面的比较内容里关于HBase怎么做的讲得比较多点。在文章的结尾,我也会讨论一些BigTable的如今的新功能,以及HBase跟它们比较如何。好,我们就从术语开始。术语有少数几个不同的术语被两个系统用来描述同样的事物。最显著的莫过于HBase中的regions和BigTable中的tablet。自然地,它们各自把一连串的行(Rows)切分交给许多Region server或者tablet server管理。特性比较接下来的就是特性比较列表,列表中是BigTable跟HBase的特性比较。有的是一些实现细节,有的是可配置的选项等。让人感到有困惑的是,将这些特性分类很难。
?
?
特性 BigTable HBase 说明 读?/?写?/?修改的原子性 支持,每行 支持,每行 因为?BigTable?不像关系型数据库,所以不支持事务。最 接近事务的就是让对每行数据访问具有原子性。?HBase?同样实现了”行锁”的?API?,让用户访问数据时给一行或 者几行数据加锁。 词典顺序的行排序 支持 支持 所有行都按照词典顺序排序 数据块支持 支持 支持 在数据存储文件中,数据是由更小的数据块构成的。这使从大的存储文件读取数据更快。数据块的大小是可 配置的,典型配置是?64K?。 数据块压缩 支持,按Column Family 支持,按Column Family Google?使用?BMDiff?和?Zippy?做两步处理。?BMDiff?工作得很好是因为存储文件中相邻的?key-value?对的内容经常非常相似。因为数据支持多个版本,几个版本的内容会被排序然后被存在一起,它们之间有很 多相同的内容。或者?row key?也会被用这样的方式处理,比如如果用?URL?来作为row key?,而这些?URL?来自统一个网站,那么?row key?也会有很多相似之 处。?Zippy?使用的是改进的?LZW?算法。?HBase?使用的是?Java?支持的标准的?GZip?,以及一点点?GPL licensed LZO?格式支持。?Hadoop?也有想使用?BMDiff?和?Zippy?的征兆。 Column Family?数量限制 最多几百 小于?100 理论上行数和列数是无限的,可是列族(?column family?)却不是。这个只是设计上的一些折中考率?. Column Famil命名格式 可打印 可打印 HBase?这样做的主要原因是?Column Famil?的名称会被作为文件 系统中的目录名称 Qualifier?命名的格式 任意 任意 任意的字节数组 Key/Value?对的格式 任意 任意 任意的字节数组 访问控制 支持 无 BigTable?支持?column family?级别的访问控制。?HBase?暂不支持 Cell?多版本 支持 支持 多版本支持是基于时间戳。?
版本数目限制可以基于?cloumn family?级别自 由配置 自定义时间戳 支持 支持 两个系统都支持用户设定时间戳,如果用户不指定,则 使用当前时间作为时间戳。 数据?TTL 支持 支持 除了数据可以有多个版本,用户还可制定?TTL?(?time-to-live?),当数据到期后会被清除 批量写入 支持 支持 都支持批量表操作 值计数器 支持 支持 两者都可使用特定的
您可能关注的文档
- GRNN網络在企业盈利能力预测中的应用.doc
- GPS測量的设计与实施.doc
- GPT分區表下安装win7的方法.docx
- Grubbs法在室內质控中的应用和问题.doc
- Gram方陣的探讨.doc
- GrWMn材料提高表面質量的方法.doc
- GS388淺论中小外贸企业融资难的问题及对策.doc
- GS-GLCC油氣分离计量系统和同类产品的比较.doc
- GPS技術在物流跟踪中的应用探讨.doc
- GPU大百科全書前传看图形与装修的关系.docx
- 2025-2026学年天津市和平区高三(上)期末数学试卷(含解析).pdf
- 2025-2026学年云南省楚雄州高三(上)期末数学试卷(含答案).pdf
- 2025-2026学年甘肃省天水市张家川实验中学高三(上)期末数学试卷(含答案).docx
- 2025-2026学年福建省厦门市松柏中学高二(上)期末数学试卷(含答案).docx
- 2025-2026学年广西钦州市高一(上)期末物理试卷(含答案).docx
- 2025-2026学年河北省邯郸市临漳县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省石家庄二十三中七年级(上)期末历史试卷(含答案).docx
- 2025-2026学年海南省五指山市九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省唐山市玉田县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省邢台市市区九年级(上)期末化学试卷(含答案).docx
原创力文档

文档评论(0)