- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于大数据的秒级查询实现
基于大数据的秒级查询实现
摘 要:传统的关系型数据库,在单表中数据量达到上千万时,不论怎么优化,查询速度都难令人满意,用分布式并行处理的大数据环境来处理数据读写速度问题,用分布式列存储数据库提高表中数据检索速度,在性能上会有比较显著的提升。
中国论文网 /8/view-7157830.htm
关键词:大数据;分布式;Hadoop;并行运算
一、背景和目的
随着社会逐步步入信息时代,各行各业的信息化建设都进行跨越性的发展,各类型数据呈现爆炸式增长。国际数据公司IDC 2011年发布的Digital Universe Study,全球信息总量每两年就会增长一倍,在2011年,全球被创建和被复制的数据总量为1.8ZB(1.8万亿GB),预计到2020年这一数值将增长到35ZB。数据量每上升一个数量级,就会要求IT具备相应的高效率处理能力(包括存储、运算、查询、展现及成本等),大数据Hadoop系统为提升IT的数据处理能力在效率及性能方面提供了较好的支持。
Hadoop系统基础的组件包括了HDFS、MapReduce和HBase,HDFS为海量的数据提供了存储,而MapReduce为海量的数据提供了计算,HBase则提供高可靠性、高性能、面向列、可伸缩的分布式大规模结构化存储集群。HDFS采用分布式技术和低成本存储设备解决了对全类型数据(结构化、半结构化、非结构化)的存储、查询,MapReduce是并行处理大数据集的软件框架,使大数据集能在分布式环境下进行并行运算,HBase是一个分布式、面向列的适合于非结构化数据存储的数据库,可通过HBase中数据表的rowkey实现快速检索查询。
二、实例系统环境搭建
运行环境需搭建一个最基础的Hadoop系统运行环境,本次实现中对应的硬件安装环境如下列表(用3台服务器来组建大数据运行所需分布式系统环境):
实验环境安装步骤:
1、软件系统环境准备,安装操作系统、网络配置能相互ping通,按照Hostname定义服务器名称,并在/etc/hosts中增加集群中3台服务器的名称和ip;
2、安装jdk,配置jdk运行环境,需要在集群中的三台服务器上都安装;
3、创建Hadoop运行账户;
4、在3台服务器之间配置SSH无密码登录;
5、安装配置Hadoop;
1)、用Hadoop运行账户解压安装文件;
2)、用root用户在/etc/profile中配置Hadoop运行环境变量,需要在集群中的三台服务器上都配置修改;
3)、修改Hadoop运行配置文件core-site.xml、hdfs-site.xml、yarn-site.xml和slaves文件;
4)、同步/etc/hosts、/etc/profile和Hadoop运行配置文件core-site.xml、hdfs-site.xml、yarn-site.xml;
5)、启动Hadoop并检查Master和Slave的进程,并验证集群是否可用。
6、安装配置HBase;
三、设计及实现
本次实现中利用交通运营车辆的GPS定位信息数据,数据文件大小约300G,记录总条数约20亿条,数据中包括车辆基本信息(车牌号、车牌颜色、车辆归属行业、车辆归属省市等)和车辆定位信息(定位时间、经度、纬度、车辆状态等)。
1、HBase数据表设计原则:
1)、建表时按照车辆归属省市划分region(提升数据读写性能);
2)、数据表中rowkey定义为: 车牌号_车牌颜色_定位时间;
3)、车辆基本信息和车辆定位信息都放在一个family(列簇),字段信息可自动扩展。
参考建表脚本:create ‘gpsinfo’, {NAME = ‘vehicle’, COMPRESSION = ‘SNAPPY’},
{SPLITS = [‘京’,’吉’,’辽’,’蒙’,’晋’,’冀’,’津’,’新’,’宁’,’青’,’甘’,’陕’,’藏’,’云’,’贵’,’川’,’渝’,’琼’,’桂’,’粤’,’湘’,’鄂’,’皖’,’鲁’,’赣’,’闽’,’豫’,’浙’,’苏’,’沪’,’黑’]}。
2、本实现中数据处理流程如下描述:
1)、从数据源(离线文件)中读取数据,并进行初步清洗写入HDFS中(生成rowkey);
2)、编写MapReduce程序将清洗后HDFS文件生成HBase的HFile文件;
3)、通过BulkLoad方式将MapReduce生成的HFile加载到HBase中;
4)、HBase中表数据保存在HDFS上;
5)、通过HBase的api提供对外的快速查询接口。
四
您可能关注的文档
最近下载
- 必考名著《白洋淀纪事》导读+知识点汇总.pdf VIP
- CQJZDE-2008 重庆市建筑工程计价定额.docx VIP
- 《白洋淀纪事》阅读测试题含答案(推荐).docx VIP
- 人教部编版七年级语文上册名著选读《湘行散记》导读.doc VIP
- 重庆市建筑工程计价定额CQJZDE-2008.doc
- 部编版七上语文名著导读《朝花夕拾》、《白洋淀纪事》、《湘行散记》知识点练习(含答案).docx VIP
- 超星尔雅学习通《大学生劳动教育》章节测试含答案.docx VIP
- 名著阅读《湘行散记》七年级语文上册部编版(共9页).docx VIP
- 七年级上册名著《湘行散记》知识点+习题(共12页).docx VIP
- 锅炉酸洗方案.pdf VIP
文档评论(0)