- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
XX基于大数据的分析查询
解决方案
文档版本号:
文档密级:
V1.0
文档编号:
归属部门 / 项目:
产品部
编写人:
编写日期:
2017.10.09
XX技术有限公司
版本号修订人
版本号
修订人
修订日期
修订描述
V 3.0
基于大数据的分析查询解决方案
基于大数据的分析查询解决方案
PAGE
PAGE 10
目录
项目背景 3
项目需求及目标分析 3
项目方案介绍 3
系统架构 4
数据存储 5
HDFS 分布式文件系统 5
HBase- 分布列式数据库 7
Hive- 数据仓库 9
GraphDB- 大规模分布式并行图数据库 11
数据总线 13
数据采集与交换 15
数据预处理 15
计算引擎 21
功能 21
组成 21
计算框架 23
通用算子 23
专用算子及分析模板 25
高性能高可用 28
高性能 28
高可用 29
业务功能展示 29
业务定义和业务审核 30
时空碰撞 33
综合查询 35
关系分析 36
实时监控 38
本期项目性能指标要求 39
系统性能要求 39
平台规模 39
系统能力 39
系统运营 40
本期项目软硬件配置 40
项目背景
项目需求及目标分析
XXX 客户现有大量的文件(包含 JSON 文件),根据 key 查找 json 文件内的 vaule 需要大量的时间和精力, 且不能做到对相关关联文件的查询, 对目标数据的没有可视化的分析 系统。
大数据查询分析系统支持海量数据的采集、过滤、转换、存储、搜索、查询、统计、
分析、 可视化与安全管理等大数据全生命周期管理, 各种行业应用和最终用户, 可以通过平台提供的丰富的接口, 完成大规模行业数据的挖掘分析和应用对接管理。 对外提供大容量数据分析和查询能力,为解决各大企业的以下需求:
软硬件国产自主可控, 所有软硬件需要自主可控产品, 数据存储产品需要采用国产核心处理器。
多源异构数据接入
数据关联融合、统一访问大规模、高性能、可扩展
本期项目对存储的约 80T 文件(包含 json )文件进行大数据查询分析, 千亿级记录和文档的检索(特别是 json 数据的检索),在该数据规模下实现秒级响应。
对关键字进行关联分析,展示出关系图,可以展示与此相关联的数据方案介绍。高可靠、高可用
项目方案介绍
基于大数据的分析查询解决方案
基于大数据的分析查询解决方案
3.1.
3.1.
系统架构
图 2-1 XX大数据系统系统架构图
如上图所示, XX 大数据系统是一款大数据管理分析平台,基于底层的基础平台,自下而上可以分四层,依次是数据存储层、数据总线、 数据处理层以及业务适配层。同时具有高性能和高可用的特征。
数据存储层: 支持海量异构数据的统一可靠的存储管理, 对外提供统一的分布式调用接口。
数据总线:支持数据采集、过滤、缓存、中转分发调度等。数据总线是计算与存储的枢纽,同时是内外数据交换的通道,完成数据在组件间及层次间中转、缓冲及调度。
数据处理层: 基于支持多种计算模型的分布式计算框架, 为上层业务系统提供专业的计算处理库,包括 文本处理、搜索引擎、数据挖掘等。
业务适配层:为上层业务系统提供各种不同协议和标准的访问接口。
高性能高可用保障: 通过软硬件多方优化配置和深度研究, 保证整个平台的高可用和高性能。
产品特点:
面向网络内容及社会计算领域,通过多年积累 数据处理层的特有业务处理引擎深度业务适配及衍生的垂直解决方案
以数据总线为中心进行数据全生命周期调度及价值实现的数据流驱动视角
数据存储
XX 大数据系统为用户提供企业级大数据平台软件一体化解决方案; 并支持特殊应用场景下的定制化硬件加速。面对结构复杂、需求多变的异构数据处理业务, XX 大数据系统不仅提供统一、 稳定、 高效的存储子系统, 还整合了先进的分布式集群资源管理和进程调度方
案、高性能数据总线技术、全并行架构分布式关系数据库、面向图计算的并行图数据库、分
布式 KV 存数据库, 以及面向用户业务的各类工具软件和库支持。 基于 XX 大数据系统平台, 用户可以以非常低的时间代价构建大规模企业大数据一体化解决方案。
文档 数据库 图片 音视频 邮件 消息
关系型数据 非关系型数据 流式数据 多维数据
Hbase HDFS DB DSQL GraphDB
统一分布式存储 (UDFS)
图 3-1: XX 大数据系统数据存储子系统结构图上图是 XX 大数据系统存储组件的结构图,主要包括如下功能组件: HDFS: 基于对象的高性能分布式文件存储系统。
TBase:分布式 Key-Value 数据库。
DSQL :分布式关系数
您可能关注的文档
- (4G学习)中兴LTE精选题库-初级.docx
- (0282)《教育统计学》大作业A答题.docx
- (完整word版)北师大版五年级上册数学竞赛试卷.docx
- (完整版)四年级组数学特色作业设计.docx
- (完整版)雅思考试必背短语.docx
- (完整版)周三多管理学笔记完整版.docx
- 《奥尔夫音乐教育》课程标准.docx
- 《健康管理学》课程标准.docx
- 《民航旅客运输》期末考试卷一.docx
- 《有机化学》练习题与参考答案.docx
- 2025年无人机低空医疗物资投放社会效益报告.docx
- 2025年再生塑料行业包装回收利用产业链重构研究.docx
- 《AI眼镜周边产品市场机遇:2025年终端销售与需求增长洞察》.docx
- 2025年坚果加工行业深加工技术突破与市场拓展策略报告.docx
- 2025年通信芯片行业技术竞争与未来趋势报告.docx
- 《2025年生鲜电商配送冷链事故分析与预防措施》.docx
- 《商业航天融资新趋势2025民营卫星企业资本涌入估值分析市场动态》.docx
- 2025年能源绿色健康行业创新技术与市场应用报告.docx
- 2025年无人机低空医疗救援通信方案分析报告.docx
- 2025年烹饪机器人行业市场集中度分析报告.docx
最近下载
- 中国马克思主义与当代 2024版 教材课后思考题答案.docx
- 人工智能推动医学研究的创新突破.pptx VIP
- 玄隐遗密(含黄帝内经).pptx VIP
- 《社会调查研究与方法》期末复习考试题库(带答案).docx VIP
- 创业基础(暨南)中国大学MOOC慕课 章节测验期末考试答案(期末考试题目从章节测验中选出,题目没对上,可以在章节测验中查找).docx VIP
- 消防中级维保考试题库2000题.pdf
- 眼的解剖与生理.ppt VIP
- 上汽荣威R550维修手册1_描述与运作 ——原厂 2009 390 页 pdf.pdf VIP
- 学习华为:以客户为中心的营销体系.pptx VIP
- 家长会心得体会五年级简短9篇.docx VIP
原创力文档


文档评论(0)