- 1、本文档共35页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
MACROBUTTON NoMacro 公开
MACROBUTTON NoMacro 公开
密 级:_____________
实时非结构化数据存储
段政均 学 号:_________________________
段政均
工业工程 作 者:_________________________
工业工程
专 业 名 称:_________________________
2015
目录
TOC \o 1-3 \h \z \u 1 绪论 2
1.1 研究背景及意义 2
1.2国内外研究现状 3
1.3 论文组织结构 6
2非结构化数据存储相关技术 7
2.1 网络存储架构的研究 7
2.2 文件搜索技术的研究 8
2.3内容存储与管理的融合 9
2.4 CAStor 内容存储-管理系统简介 10
3系统设计及实现 14
3.1应用背景 14
3.2系统设计 14
3.4系统结构 15
3.5功能实现 16
4 系统测试及分析 29
4.1测试环境 29
4.2内存测试实验结果及分析 31
4.3文件读写性能测试 31
5.总结及展望 33
参考文献 34
1 绪论
1.1 研究背景及意义
随着新媒体时代的到来,海量的数据需要及时传播和储存,一是,电子商务经营者对产品推广、商品竞价、物流供应和及时配送等方面服务的要求不断增加;二是新兴电子商务数据的灵活性、丰富性及及时性等新特征使服务提供的技术难度不断增加。
由此带来的数据灵活性和虚构性使得非结构化数据在数据采集及挖掘中面临极端数据所带来的效率问题;由情境相关的数据支持与数据表达展示与新兴电子商务智能有关的知识支持方法及商务智能模型与算法方面一直是当今研究的热点,如何适应数据的特性交叉和演化则是更为复杂的科学与技术难题。
1.2国内外研究现状
当今信息化时代充斥着大量的数据。海量数据存储是一个必然的趋势。然而数据如何的存储和查询,尤其是当今非结构化数据的快速增长,对其数据的存储,处理,查询。使得如今的 关系数据库存储带来了巨大的挑战。分布存储技巧是云计算的根基,主要研究如何存储、组织和管理数据中心上的大规模海量数据.由于面临的数据规模和用户规模更加庞大,在可扩展性、容错性以及成本控制方面面临着更加严峻的挑战文献【1】。 ? ? ? ?
对于大量的半结构化数据(semi-structure data)和非结构化数据,,对其存储和并发计算以及扩展能力而设计出了NoSQL,像有google的Bigtable,Amaze 的Dynamo,以及Apache的Hbase。NoSQL支持强大的水平扩展能力和高性能,与关系数据库不同的是,NoSQL可以采用松弛一致性(relax consistant),但是供给最终一致性保证数据的读的不一致。像在Dynamo中为了供给高的写的能力(购物时不会因为并发而不会添加购物车不能成功,而影响用户体验),不得不采取最终一致性。根据CAP原理,一致性、高可用性、分区容忍性(Partition-tolerance)三者中最多择其二,舍其一。在Dynamo牺牲了一致性,但是供给高的可用性文献【6】。另外Dynamo采用非集中化管理,使得每个节点都是同等地位,充分利用分布式哈希表(DHT)的一种实现即一致性哈希,使得Dynamo供给强大的可扩展性。Hbase可以说供给强的一致性,但是牺牲掉了一定的高可用性,比如存在单点故障,在当一个Regionserver出问题或失去联系时,需要master来重新部署原Regionserver下面的是Region到别的空闲的服务器下。这段时间无法与下面的Region联系。Hbase是Apache的顶级项目Hadoop的一个组成部分,hadoop是一种分布式系统根基架构。它可以充分利用集群的威力高速运算和存储。下面着重介绍Hbase。
1.非结构化数据存储结构 ? ? ? ?
Hbase是Apache的顶级子项目,它的理念来自于Google的Bigtable。它是分布的、面向列的、多维的数据库系统,它供给高的容错性和可扩展性,它是建立HDFS(Hadoop分布式文件系统)之上。Hbase的表的每一行有行键(row key)和任意多的列(column)组成,其中多个列可以组成列族(column family)。每个数据单元(cell)可以拥有数据的多个版本(version),这个是使用时间戳来区分。所以Hbase是拥有map:(行键,列族:列,时间戳)对应一个值文献【2】文献【7】。 ? ? ? ?
Hbase是应用在分布式系统之中,他将大量的行
您可能关注的文档
- 吴秋兵--基于随机森林算法的配网抢修故障量预测方法.docx
- 纯电动公交车充电站负荷建模方法.docx
- Portal与内容管理结合 构建机构网站 暨南大学.ppt
- 第七章-非结构化数据挖掘.ppt
- 非结构化存储.docx
- 非结构化数据管理(原理与实现技术).ppt
- 实时非结构化数据存储.docx
- 论电子商务中商标权的法律保护(改).doc
- 尚德化工股份有限公司变配电系统设计.docx
- BP神经网络方法的电力负荷预测编程指导书(内附matlab代码).docx
- 四川省德阳市罗江中学2025届高三考前热身化学试卷含解析.doc
- 山东省枣庄现代实验学校2025届高三下学期第五次调研考试化学试题含解析.doc
- 吉林省长春市十一高中等九校教育联盟2025届高三一诊考试生物试卷含解析.doc
- 2025届江苏省盐城市伍佑中学高考仿真模拟化学试卷含解析.doc
- 2025届广西贺州中学高考冲刺押题(最后一卷)生物试卷含解析.doc
- 安徽省池州市贵池区2025届高三第一次模拟考试生物试卷含解析.doc
- 宁夏银川一中2025届高三(最后冲刺)化学试卷含解析.doc
- 广东省广州市增城区四校联考2025届高考压轴卷化学试卷含解析.doc
- 2025届邯郸市第一中学高考生物必刷试卷含解析.doc
- 2025届安徽省安庆市石化第一中学高考仿真卷化学试卷含解析.doc
文档评论(0)