基于大数据的秒级查询实现.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于大数据的秒级查询实现

基于大数据的秒级查询实现   摘 要:传统的关系型数据库,在单表中数据量达到上千万时,不论怎么优化,查询速度都难令人满意,用分布式并行处理的大数据环境来处理数据读写速度问题,用分布式列存储数据库提高表中数据检索速度,在性能上会有比较显著的提升。 中国论文网 /8/view-7157830.htm   关键词:大数据;分布式;Hadoop;并行运算   一、背景和目的   随着社会逐步步入信息时代,各行各业的信息化建设都进行跨越性的发展,各类型数据呈现爆炸式增长。国际数据公司IDC 2011年发布的Digital Universe Study,全球信息总量每两年就会增长一倍,在2011年,全球被创建和被复制的数据总量为1.8ZB(1.8万亿GB),预计到2020年这一数值将增长到35ZB。数据量每上升一个数量级,就会要求IT具备相应的高效率处理能力(包括存储、运算、查询、展现及成本等),大数据Hadoop系统为提升IT的数据处理能力在效率及性能方面提供了较好的支持。   Hadoop系统基础的组件包括了HDFS、MapReduce和HBase,HDFS为海量的数据提供了存储,而MapReduce为海量的数据提供了计算,HBase则提供高可靠性、高性能、面向列、可伸缩的分布式大规模结构化存储集群。HDFS采用分布式技术和低成本存储设备解决了对全类型数据(结构化、半结构化、非结构化)的存储、查询,MapReduce是并行处理大数据集的软件框架,使大数据集能在分布式环境下进行并行运算,HBase是一个分布式、面向列的适合于非结构化数据存储的数据库,可通过HBase中数据表的rowkey实现快速检索查询。   二、实例系统环境搭建   运行环境需搭建一个最基础的Hadoop系统运行环境,本次实现中对应的硬件安装环境如下列表(用3台服务器来组建大数据运行所需分布式系统环境):   实验环境安装步骤:   1、软件系统环境准备,安装操作系统、网络配置能相互ping通,按照Hostname定义服务器名称,并在/etc/hosts中增加集群中3台服务器的名称和ip;   2、安装jdk,配置jdk运行环境,需要在集群中的三台服务器上都安装;   3、创建Hadoop运行账户;   4、在3台服务器之间配置SSH无密码登录;   5、安装配置Hadoop;   1)、用Hadoop运行账户解压安装文件;   2)、用root用户在/etc/profile中配置Hadoop运行环境变量,需要在集群中的三台服务器上都配置修改;   3)、修改Hadoop运行配置文件core-site.xml、hdfs-site.xml、yarn-site.xml和slaves文件;   4)、同步/etc/hosts、/etc/profile和Hadoop运行配置文件core-site.xml、hdfs-site.xml、yarn-site.xml;   5)、启动Hadoop并检查Master和Slave的进程,并验证集群是否可用。   6、安装配置HBase;   三、设计及实现   本次实现中利用交通运营车辆的GPS定位信息数据,数据文件大小约300G,记录总条数约20亿条,数据中包括车辆基本信息(车牌号、车牌颜色、车辆归属行业、车辆归属省市等)和车辆定位信息(定位时间、经度、纬度、车辆状态等)。   1、HBase数据表设计原则:   1)、建表时按照车辆归属省市划分region(提升数据读写性能);   2)、数据表中rowkey定义为: 车牌号_车牌颜色_定位时间;   3)、车辆基本信息和车辆定位信息都放在一个family(列簇),字段信息可自动扩展。   参考建表脚本:create ‘gpsinfo’, {NAME = ‘vehicle’, COMPRESSION = ‘SNAPPY’},   {SPLITS = [‘京’,’吉’,’辽’,’蒙’,’晋’,’冀’,’津’,’新’,’宁’,’青’,’甘’,’陕’,’藏’,’云’,’贵’,’川’,’渝’,’琼’,’桂’,’粤’,’湘’,’鄂’,’皖’,’鲁’,’赣’,’闽’,’豫’,’浙’,’苏’,’沪’,’黑’]}。   2、本实现中数据处理流程如下描述:   1)、从数据源(离线文件)中读取数据,并进行初步清洗写入HDFS中(生成rowkey);   2)、编写MapReduce程序将清洗后HDFS文件生成HBase的HFile文件;   3)、通过BulkLoad方式将MapReduce生成的HFile加载到HBase中;   4)、HBase中表数据保存在HDFS上;   5)、通过HBase的api提供对外的快速查询接口。   四

文档评论(0)

cby201601 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档