网站大量收购闲置独家精品文档,联系QQ:2885784924

基于NoSQL数据库的大数据查询技术的研究与应用.pdfVIP

基于NoSQL数据库的大数据查询技术的研究与应用.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于NoSQL数据库的大数据查询技术的研究与应用.pdf

第3 5卷,第1期 2 o 1 4年1月 中 国 铁 道 科 学 CHINA RAILWAY SCIENCE V01.35 No.1 January,2014 文章编号:1001—4632(2014】01一0135一07 基于NoSQL数据库的大数据查询技术的研究与应用 朱建生,汪健雄,张军锋 (中国铁道科学研究院电子计算技术研究所,北京lo0081) 摘要:基于NoSQL数据库理论,根据应用场景的不同,将NoSQL数据库分为面向高性能读写、面向文 档和面向分布式计算的3种类型。对比分析这3种类型数据库的6种代表产品的优缺点,结合铁路客票实名制 售票信息综合分析系统中的大数据操作的需求,选用No蹴。数据库中的面向分布式计算的Cassandra数据库。 基于cassandra数据库,提出铁路客票实名制信息综合分析系统的技术架构,并设计反向索引以构建客票实名制 乘车信息的查询策略和查询流程。通过性能测试,验证了NoSQL数据库技术在处理大数据查询和分析中的高可 用性,可突破传统关系型数据库和数据仓库在应用中所遇到的查询性能、扩展性以及投资成本的瓶颈。 关键词:NosQL数据库;cassandra数据库;大数据处理;反向索引;数据查询 中图分类号:U293.22l:TP391 文献标识码:A doi:10.3969/j.issn.100l一4632.2014.01-21 截至2011年底,中国铁路客票预订与发售系 统(China Railway Ticketing and Reservation Sys— tem,TRS)[1]除少量普通列车的中间站外,对于 全路旅客列车均实现了实名制售票。TRS在售票 时记录每个乘车人的乘车信息和实名身份信息,随 着实名制售票数据的长期积累和不断完善,急需研 究铁路客票实名制信息查询技术,并建立铁路客票 实名制信息查询分析系统,用于统计、分析和查询 售检票过程中产生的实名制售票信息,以丰富铁路 客运业务分析数据类型,全面挖掘旅客购票和乘车 的规律,为铁路客运客户关系管理奠定基础。 由此对铁路客票实名制查询分析系统提出如下 需求:具有较高横向扩展能力的数据存储机制;针 对大数据进行查询策略专项优化;具有较高级的数 据挖掘分析和研判应用。而建立该系统仅依靠关系 型数据库已经无法满足需求,必须借助数据仓库存 储策略和数据挖掘技术。近年来,随着高性能计算 技术的高速发展,带动了分布式计算、并行计算和 虚拟化技术的不断进步,为寻求低成本、高性能的 数据挖掘计算带来了机遇。因此,本文基于No— SQL(Not only Structured Query Language, 不 仅限于结构化查询语言)数据库技术,提出铁路客 票实名制信息综合分析系统技术架构,设计反向索 引以构建高性能的数据查询策略及处理流程,以满 收稿日期:2012一07—10;修订日期:2013—08一06 基金项目:中国铁道科学研究院行业服务技术创新项目(1151Dzl003) 作者简介:朱建生(1972),男,山西太原人,研究员。 足系统的功能和性能需求。 1 NoSQL数据库理论基础 NosQL数据库是由许多理论支撑作为前提的, 其中与建立铁路客票实名制查询分析系统相关的理 论包括CAP理论、扩展Bigtable存储模型和一致 性哈希算法。 1.1 o心理论 CAP定理:对于分布式系统的要求体现在一 致性、可用性和分区容错性;对于任一事实存在的 分布式系统,只可同时满足上述3个方面中的任意 2点,而无法三者兼顾[2]。 根据CAP理论,关系型数据库管理系统 (Relational Database Management System, Rn BMS)可满足一致性和可用性,但无法很好地支持 分布式应用,因此在小规模数据量时可达到很好的 效应,但随着数据量和应用范围的增长,性能大幅 度下降。对于许多大数据应用而言,侧重于系统的 可用性,而对于一致性的要求可以降低,从而产生 了弱一致性理论BASE(Basically,Available, Soft-state, EventuaI consistency), 即反 ACID (Atomicity,Consistency, Isolation, Durability) 模型。BASE理论的思想是,对于分布式系统,只 万方数据 中国铁道科学 第35卷 需要满足最终一致性(Eventual Consistency)即 可,而且可以是异步的,即柔性状态(Soft— state)。而NoSQL正是利用最终一致性[3]满足了 可用性和分区容错性,近年来得到了广泛的关注, 因此NoSQL是CAP理论的产物。 1.2扩展Ⅸgtable存储模型 Bigtable是一个分布式的结构化数据存储系 统,底层是一个稀疏

文档评论(0)

专注于电脑软件的下载与安装,各种疑难问题的解决,office办公软件的咨询,文档格式转换,音视频下载等等,欢迎各位咨询!

1亿VIP精品文档

相关文档