分布式结构化数据存储系统方案.docVIP

  • 7
  • 0
  • 约4.09万字
  • 约 53页
  • 2019-11-02 发布于安徽
  • 举报
. . . .. . 学习好帮手 北京大学硕士研究生学位论文 题目:Bighive:一个针对时间维度优化的 分布式结构化数据存储系统 姓 名: 涂启琛 学 号: 院 系: 信息科学与技术学院 专 业: 计算机系统结构 研究方向:计算机网络与分布式系统 导师姓名: 李晓明 教授 二00九 年 六 月 . . . .. .北京大学硕士学位论文 学习好帮手 53 - 版权声明 任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。 摘要 “中国Web信息博物馆”(Web InfoMall)[4],是一个针对中国互联网信息的搜集、存储与历史浏览服务的海量信息系统,5 年来已经积累超过25 亿中国互联网上出现过的网页,数据量已经超过30TB。随着数据量的持续增长,现有的Infomall存储和服务系统已不能满足要求,使得其中的数据存储和访问变得越来越困难。 为解决这一问题,本文首先分析了Infomall数据特征及其访问特性。在数据上,InfoMall中网页历史数据规模庞大,具有空间和时间两个方面的维度,我们发现数据在这两个维度上无界增长,表现出高度的不平衡性。其次,在访问上,InfoMall中的所有请求都带有时间和空间两方面维度的约束。 本文工作通过具体分析Web InfoMall的数据和访问特点,针对访问性能优化而设计了一种带时间索引的数据存储格式TSFile,实验表明其对InfoMall数据存储和访问需求的有效性。在此基础上,我们设计并实现一个的分布式结构化数据存储系统Bighive,并评测验证了其可行性。不失一般性,本文所研究的针对时间维度优化的分布式结构化数据存储技术,不仅能处理好InfoMall中的数据,也能很好的作为一个通用的结构化数据存储系统。 关键词:Bigtable、中国网页信息博物馆、分布式、结构化数据、存储系统 Bighive: An Optimized Distributed Data Storage System on time dimension Abstract Chinese Web Museum (Web InfoMall)[4] is a system for crawling, storing and exhibiting all the web pages being on or once been on the web. For the past 5 years, the system has stored 2.5 billion web pages, and the overall data size is more than 30TB. As its load continues growing, the storage and access of data become more and more difficult. Since the current system cannot meet our daily request due to the specific character of its data distribution, The present Chinese Web Museum has several problems. First, the overall data has a huge size on both space and time dimensions with rapid growth. Second, all requests To resolve the problems mentioned above, this paper propose a brand-new data storage format called TSFile, qualify its suitableness for the InfoMall. After that, The paper describes the design, implementation and evaluation of Bighive, and discusses

文档评论(0)

1亿VIP精品文档

相关文档