- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于NoSQL数据库的大数据查询技术的研究与应用.pdf
第3 5卷,第1期
2 o 1 4年1月
中 国 铁 道 科 学
CHINA RAILWAY SCIENCE
V01.35 No.1
January,2014
文章编号:1001—4632(2014】01一0135一07
基于NoSQL数据库的大数据查询技术的研究与应用
朱建生,汪健雄,张军锋
(中国铁道科学研究院电子计算技术研究所,北京lo0081)
摘要:基于NoSQL数据库理论,根据应用场景的不同,将NoSQL数据库分为面向高性能读写、面向文
档和面向分布式计算的3种类型。对比分析这3种类型数据库的6种代表产品的优缺点,结合铁路客票实名制
售票信息综合分析系统中的大数据操作的需求,选用No蹴。数据库中的面向分布式计算的Cassandra数据库。
基于cassandra数据库,提出铁路客票实名制信息综合分析系统的技术架构,并设计反向索引以构建客票实名制
乘车信息的查询策略和查询流程。通过性能测试,验证了NoSQL数据库技术在处理大数据查询和分析中的高可
用性,可突破传统关系型数据库和数据仓库在应用中所遇到的查询性能、扩展性以及投资成本的瓶颈。
关键词:NosQL数据库;cassandra数据库;大数据处理;反向索引;数据查询
中图分类号:U293.22l:TP391 文献标识码:A doi:10.3969/j.issn.100l一4632.2014.01-21
截至2011年底,中国铁路客票预订与发售系
统(China Railway Ticketing and Reservation Sys—
tem,TRS)[1]除少量普通列车的中间站外,对于
全路旅客列车均实现了实名制售票。TRS在售票
时记录每个乘车人的乘车信息和实名身份信息,随
着实名制售票数据的长期积累和不断完善,急需研
究铁路客票实名制信息查询技术,并建立铁路客票
实名制信息查询分析系统,用于统计、分析和查询
售检票过程中产生的实名制售票信息,以丰富铁路
客运业务分析数据类型,全面挖掘旅客购票和乘车
的规律,为铁路客运客户关系管理奠定基础。
由此对铁路客票实名制查询分析系统提出如下
需求:具有较高横向扩展能力的数据存储机制;针
对大数据进行查询策略专项优化;具有较高级的数
据挖掘分析和研判应用。而建立该系统仅依靠关系
型数据库已经无法满足需求,必须借助数据仓库存
储策略和数据挖掘技术。近年来,随着高性能计算
技术的高速发展,带动了分布式计算、并行计算和
虚拟化技术的不断进步,为寻求低成本、高性能的
数据挖掘计算带来了机遇。因此,本文基于No—
SQL(Not only Structured Query Language, 不
仅限于结构化查询语言)数据库技术,提出铁路客
票实名制信息综合分析系统技术架构,设计反向索
引以构建高性能的数据查询策略及处理流程,以满
收稿日期:2012一07—10;修订日期:2013—08一06
基金项目:中国铁道科学研究院行业服务技术创新项目(1151Dzl003)
作者简介:朱建生(1972),男,山西太原人,研究员。
足系统的功能和性能需求。
1 NoSQL数据库理论基础
NosQL数据库是由许多理论支撑作为前提的,
其中与建立铁路客票实名制查询分析系统相关的理
论包括CAP理论、扩展Bigtable存储模型和一致
性哈希算法。
1.1 o心理论
CAP定理:对于分布式系统的要求体现在一
致性、可用性和分区容错性;对于任一事实存在的
分布式系统,只可同时满足上述3个方面中的任意
2点,而无法三者兼顾[2]。
根据CAP理论,关系型数据库管理系统
(Relational Database Management System, Rn
BMS)可满足一致性和可用性,但无法很好地支持
分布式应用,因此在小规模数据量时可达到很好的
效应,但随着数据量和应用范围的增长,性能大幅
度下降。对于许多大数据应用而言,侧重于系统的
可用性,而对于一致性的要求可以降低,从而产生
了弱一致性理论BASE(Basically,Available,
Soft-state, EventuaI consistency), 即反 ACID
(Atomicity,Consistency, Isolation, Durability)
模型。BASE理论的思想是,对于分布式系统,只
万方数据
中国铁道科学 第35卷
需要满足最终一致性(Eventual Consistency)即
可,而且可以是异步的,即柔性状态(Soft—
state)。而NoSQL正是利用最终一致性[3]满足了
可用性和分区容错性,近年来得到了广泛的关注,
因此NoSQL是CAP理论的产物。
1.2扩展Ⅸgtable存储模型
Bigtable是一个分布式的结构化数据存储系
统,底层是一个稀疏
您可能关注的文档
- 可持续性导向的规划环境影响评价技术标准体系研究——基于规划环境影响评价技术导则实施有效性的分析.pdf
- 江西省上饶市上饶中学2014-2015学年高二下学期期中考试语文试题(重点、潜能、特长班) Word版含答案.doc
- 可持续技术的综合评价方法探讨.pdf
- 可持续技术还是可持续使用——从技术人工物的双重属性谈开去.pdf
- 江西省上饶市上饶中学2016届高三上学期期中考试语文试题(零班、培优、实验、补习班) Word版含答案.doc
- 可组合嵌入式软件建模与验证技术研究综述.pdf
- 可重组制造系统的使能技术.pdf
- 江西省上高县第二中学2015-2016学年高一上学期期末考试语文试题解析01 Word版含解析.doc
- 同步整流技术在ICPT系统中的应用.pdf
- 同步荧光技术检测鲜牛乳中掺杂复原乳的可行性研究.pdf
- 软件下载与安装、电脑疑难问题解决、office软件处理 + 关注
-
实名认证服务提供商
专注于电脑软件的下载与安装,各种疑难问题的解决,office办公软件的咨询,文档格式转换,音视频下载等等,欢迎各位咨询!
文档评论(0)