

  1. 1、本文档共53页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。

研究生学位论文 题目:Bighive:一个针对时间维度优化的 分布式结构化数据存储系统 姓 名: 学 号: 院 系: 信息科学与技术学院 专 业: 计算机系统结构 研究方向:计算机网络与分布式系统 导师姓名: 教授 二00九 年 六 月 版权声明 任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。 摘要 “中国Web信息博物馆”(Web InfoMall)[4],是一个针对中国互联网信息的搜集、存储与历史浏览服务的海量信息系统,5 年来已经积累超过25 亿中国互联网上出现过的网页,数据量已经超过30TB。随着数据量的持续增长,现有的Infomall存储和服务系统已不能满足要求,使得其中的数据存储和访问变得越来越困难。 为解决这一问题,本文首先分析了Infomall数据特征及其访问特性。在数据上,InfoMall中网页历史数据规模庞大,具有空间和时间两个方面的维度,我们发现数据在这两个维度上无界增长,表现出高度的不平衡性。其次,在访问上,InfoMall中的所有请求都带有时间和空间两方面维度的约束。 本文工作通过具体分析Web InfoMall的数据和访问特点,针对访问性能优化而设计了一种带时间索引的数据存储格式TSFile,实验表明其对InfoMall数据存储和访问需求的有效性。在此基础上,我们设计并实现一个的分布式结构化数据存储系统Bighive,并评测验证了其可行性。不失一般性,本文所研究的针对时间维度优化的分布式结构化数据存储技术,不仅能处理好InfoMall中的数据,也能很好的作为一个通用的结构化数据存储系统。 关键词:Bigtable、中国网页信息博物馆、分布式、结构化数据、存储系统 Bighive: An Optimized Distributed Data Storage System on time dimension Abstract Chinese Web Museum (Web InfoMall)[4] is a system for crawling, storing and exhibiting all the web pages being on or once been on the web. For the past 5 years, the system has stored 2.5 billion web pages, and the overall data size is more than 30TB. As its load continues growing, the storage and access of data become more and more difficult. Since the current system cannot meet our daily request due to the specific character of its data distribution, an optimized distributed data storage system is in urgent need. The present Chinese Web Museum has several problems. First, the overall data has a huge size on both space and time dimensions with rapid growth. Second, all requests to this system suffer great limitations on the above 2 dimensions. To resolve the problems mentioned above, this paper propose a brand-new data storage format called TSFile, qualify its suitableness for the InfoMall. After that, The paper describes the design, implementation and evaluation of Bighive, and discusses issues related to the system in detail. Keywords: Bigtable, Chinese We


bokegood + 关注


