- 1、本文档共53页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据模型与存储设计-北京大学
北京大学硕士研究生学位论文
题目:
二00九 年 六 月版权声明
任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。
摘要
“中国Web信息博物馆”Web InfoMall)[4],是针对中国互联网信息的搜集、存储与历史浏览服务的海量信息系统,5 年来已经积累超过25 亿中国互联网上出现过的网页,数据量已经超过30TBBighive: An Optimized Distributed Data Storage System
on time dimension
Abstract
Chinese Web Museum (Web InfoMall)[4] is a system for crawling, storing and exhibiting all the web pages being on or once been on the web. For the past 5 years, the system has stored 2.5 billion web pages, and the overall data size is more than 30TB. As its load continues growing, the storage and access of data become more and more difficult. Since the current system cannot meet our daily request due to the specific character of its data distribution, an optimized distributed data storage system is in urgent need.
The present Chinese Web Museum has several problems. First, the overall data has a huge size on both space and time dimensions with rapid growth. Second, all requests to this system suffer great limitations on the above 2 dimensions.
To resolve the problems mentioned above, this paper propose a brand-new data storage format called TSFile, qualify its suitableness for the InfoMall. After that, The paper describes the design, implementation and evaluation of Bighive, and discusses issues related to the system in detail.
Keywords: Bigtable, Chinese Web Museum, Distributed System, Structured Data, Storage System
目录
第一章 引言 - 6 -
1.1 工作背景与动机 - 6 -
1.2 问题描述 - 7 -
1.3 术语定义 - 8 -
1.4 本文结构 - 9 -
第二章 相关工作与研究 - 10 -
2.1 相关系统 - 10 -
2.2 近期相关研究 - 12 -
第三章 数据模型与存储设计 - 13 -
3.1 数据模型 - 13 -
3.1.1 Web InfoMall的数据特征 - 13 -
3.1.2 Web InfoMall的访问特征 - 15 -
3.1.3 Bigtable存储方案在InfoMall应用上的不足 - 17 -
3.2 Bighive存储设计 - 17 -
3.2.1 带时间维度索引的存储格式(TSFile) - 18 -
3.2.2 Tablet管理 - 22 -
3.2.3 TSFile的有效性 - 23 -
第四章 Bighive设计与实现 - 25 -
4.1 体系结构 - 25 -
4.2 Debby 和Tablet元数据的管理 - 25 -
4.3 Tianwang File System和后台数据的存储 - 27 -
4.4 Master主控节点 - 28 -
4.4.1 启动流程 - 29 -
4.4.2 主要功能 - 30 -
4.4.3 负载均
您可能关注的文档
最近下载
- 六年级下册道德与法治知识点选择题100道.docx
- 设备质量保证措施.docx VIP
- 研究人工智能在电力系统故障诊断与处理中的应用.docx VIP
- 设备质量保证措施.pdf VIP
- 数学教案_两位数减一位数不退位整十数教学设计.docx
- GZ-2022062 健康与社会照护赛项正式赛卷完整版包括附件-2022年全国职业院校技能大赛赛项正式赛卷.docx
- 信息技术在乡村学校教学中的应用研究教学研究课题报告.docx
- 2024-2025学年小学劳动二年级下册粤教版(主编:徐长发)教学设计合集.docx
- 教师党课讲稿:不忘初心,继续前进最新.doc VIP
- (word精品)2022年甘肃省兰州市诊断考试(一诊)数学试题(附答案).docx
文档评论(0)