基于大数据的分析查询解决方案.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
XX基于大数据的分析查询 解决方案 文档版本号: 文档密级: V1.0 文档编号: 归属部门 / 项目: 产品部 编写人: 编写日期: 2017.10.09 XX技术有限公司 版本号修订人 版本号 修订人 修订日期 修订描述 V 3.0 基于大数据的分析查询解决方案 基于大数据的分析查询解决方案 PAGE PAGE 10 目录 项目背景 3 项目需求及目标分析 3 项目方案介绍 3 系统架构 4 数据存储 5 HDFS 分布式文件系统 5 HBase- 分布列式数据库 7 Hive- 数据仓库 9 GraphDB- 大规模分布式并行图数据库 11 数据总线 13 数据采集与交换 15 数据预处理 15 计算引擎 21 功能 21 组成 21 计算框架 23 通用算子 23 专用算子及分析模板 25 高性能高可用 28 高性能 28 高可用 29 业务功能展示 29 业务定义和业务审核 30 时空碰撞 33 综合查询 35 关系分析 36 实时监控 38 本期项目性能指标要求 39 系统性能要求 39 平台规模 39 系统能力 39 系统运营 40 本期项目软硬件配置 40 项目背景 项目需求及目标分析 XXX 客户现有大量的文件(包含 JSON 文件),根据 key 查找 json 文件内的 vaule 需要大量的时间和精力, 且不能做到对相关关联文件的查询, 对目标数据的没有可视化的分析 系统。 大数据查询分析系统支持海量数据的采集、过滤、转换、存储、搜索、查询、统计、 分析、 可视化与安全管理等大数据全生命周期管理, 各种行业应用和最终用户, 可以通过平台提供的丰富的接口, 完成大规模行业数据的挖掘分析和应用对接管理。 对外提供大容量数据分析和查询能力,为解决各大企业的以下需求: 软硬件国产自主可控, 所有软硬件需要自主可控产品, 数据存储产品需要采用国产核心处理器。 多源异构数据接入 数据关联融合、统一访问大规模、高性能、可扩展 本期项目对存储的约 80T 文件(包含 json )文件进行大数据查询分析, 千亿级记录和文档的检索(特别是 json 数据的检索),在该数据规模下实现秒级响应。 对关键字进行关联分析,展示出关系图,可以展示与此相关联的数据方案介绍。高可靠、高可用 项目方案介绍 基于大数据的分析查询解决方案 基于大数据的分析查询解决方案 3.1. 3.1. 系统架构 图 2-1 XX大数据系统系统架构图 如上图所示, XX 大数据系统是一款大数据管理分析平台,基于底层的基础平台,自下而上可以分四层,依次是数据存储层、数据总线、 数据处理层以及业务适配层。同时具有高性能和高可用的特征。 数据存储层: 支持海量异构数据的统一可靠的存储管理, 对外提供统一的分布式调用接口。 数据总线:支持数据采集、过滤、缓存、中转分发调度等。数据总线是计算与存储的枢纽,同时是内外数据交换的通道,完成数据在组件间及层次间中转、缓冲及调度。 数据处理层: 基于支持多种计算模型的分布式计算框架, 为上层业务系统提供专业的计算处理库,包括 文本处理、搜索引擎、数据挖掘等。 业务适配层:为上层业务系统提供各种不同协议和标准的访问接口。 高性能高可用保障: 通过软硬件多方优化配置和深度研究, 保证整个平台的高可用和高性能。 产品特点: 面向网络内容及社会计算领域,通过多年积累 数据处理层的特有业务处理引擎深度业务适配及衍生的垂直解决方案 以数据总线为中心进行数据全生命周期调度及价值实现的数据流驱动视角 数据存储 XX 大数据系统为用户提供企业级大数据平台软件一体化解决方案; 并支持特殊应用场景下的定制化硬件加速。面对结构复杂、需求多变的异构数据处理业务, XX 大数据系统不仅提供统一、 稳定、 高效的存储子系统, 还整合了先进的分布式集群资源管理和进程调度方 案、高性能数据总线技术、全并行架构分布式关系数据库、面向图计算的并行图数据库、分 布式 KV 存数据库, 以及面向用户业务的各类工具软件和库支持。 基于 XX 大数据系统平台, 用户可以以非常低的时间代价构建大规模企业大数据一体化解决方案。 文档 数据库 图片 音视频 邮件 消息 关系型数据 非关系型数据 流式数据 多维数据 Hbase HDFS DB DSQL GraphDB 统一分布式存储 (UDFS) 图 3-1: XX 大数据系统数据存储子系统结构图上图是 XX 大数据系统存储组件的结构图,主要包括如下功能组件: HDFS: 基于对象的高性能分布式文件存储系统。 TBase:分布式 Key-Value 数据库。 DSQL :分布式关系数

文档评论(0)

HenleyChow + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7064030100000011

1亿VIP精品文档

相关文档