大数据处理平台构架设计说明书.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据处理平台构架设计说明书

大数据处理平台及可视化架构设计说明书 版本:1.0变更记录序号版本变更说明修改人/日期审批人/日期11.0创建李万鸿 2015-3-18 目录11. 文档介绍31.1文档目的31.2文档范围31.3读者对象31.4参考文献31.5术语与缩写解释32系统概述43设计约束54设计策略65系统总体结构75.1大数据集成分析平台系统架构设计75.2可视化平台系统架构设计116其它146.1数据库设计146.2系统管理146.3日志管理141. 文档介绍文档目的??设计大数据集成分析平台,主要功能是多种数据库及文件数据;访问;采集;解析,清洗,ETL,同时可以编写模型支持后台统计分析算法。设计数据可视化平台?,应用于大数据的可视化和互动操作。为此,根据“先进实用、稳定可靠”的原则设计本大数据处理平台及可视化平台。文档范围大数据的处理,包括ETL、分析、可视化、使用。读者对象管理人员、开发人员参考文献 术语与缩写解释缩写、术语解 释BDBig dataSD系统设计,System Design…系统概述 ??大数据集成分析平台,分为9个层次,主要功能是对多种数据库及网页等数据进行访采集、解析,清洗,整合、ETL,同时编写模型支持后台统计分析算法,提供可信的数据。?设计数据可视化平台?,分为3个层次,在大数据集成分析平台的基础上实现大实现数据的可视化和互动操作。 设计约束 1.系统必须遵循国家软件开发的标准。2.系统用java开发,采用开源的中间件。3.系统必须稳定可靠,性能高,满足每天千万次的访问。4.保证数据的成功抽取、转换、分析,实现高可信和高可用。 设计策略系统高可用、高性能、易扩展,安全稳定,实用可靠,满足用户的需要。系统可以进行扩展,增加数据的种类和数量。系统可以复用别的软件和算法。系统总体结构大数据集成分析平台系统架构设计1.逻辑架构2架构说明系统分为9个层次:1)数据源:CSMAR数据库、高频系列数据库、 量化因子仓库、风险控制模型数据库、量化舆情数据库、互联网的网页。2)数据获取层:接收数据源的数据和抓取网页,建立知识图谱将网页数据结构化,为人工和机器决策提供依据。3)数据导入层:通过sqoop把数据库的数据导入hbase,用flume、kafka把网页导入hbase。4)数据加工层:对导入的数据进行清洗、抽取、整合,并存入数据核心存储层。5)数据核心存储层:采用hbase、关系数据库保存加工后的数据。6)数据分析处理层:通过统计分析、数据挖掘、机器学习、风控模型等对大数据进行分析处理。7)数据服务存储层:存储分析结果,包括Elastic search分布式搜索,redis分布式缓存。8)应用层:包括报表引擎、规则引擎、风控搜索引擎、用户认证系统、统计分析接口等。9)服务层:对内的应用服务和对外的应用服务,为用户提供系统功能。 系统采用一系列先进的开源技术框架,实现大数据的抽取、ETL转换、清洗、整合、汇总、统计分析,得出可信度高的结果,高速稳定地响应用户的请求,可对公司的宽系列产品提供高质量的支持。还可建立企业云,把大数据平台放到云上。系统从CSMAR数据库、高频系列数据库、 量化因子仓库、风险控制模型数据库、量化舆情数据库抽取数据,还用机器爬虫从互联网上抓取与金融相关的网页,对这些结构化和非结构化的数据进行抽取、清洗、整合、转换,存入hbase数据库。统计分析程序采用一定的算法和模型通过spark、hadoop的yarn、hive、pig等读取处理数据,结果保存在服务层数据库,为用户提供可信的数据,还可通过可视化以各种统计图展现出来,通过pc、手机可以看到结果。系统提供可视化的操作界面,用户可自己定义统计统计和参数,系统计算分析后给出对应的图表。3.系统的特点高负载和海量数据处理能力以云存储或本地存储为基石,以云计算或企业服务器为处理核心,建立了海量的数据业务支撑的大数据平台。每天可以承受千万级PV的访问压力,支撑亿级用户及P级各类数据存储如金融数据、网页、日志文件、图片、文档、影音等。基于此大数据支撑平台,不仅可以处理日以继夜增长的TB级数据增量,更能满足各类实时业务需求业界领先的实时性在实时处理领域实现秒级突破,可以对各项业务数据惊醒实时查看与统计,方便客户快速做出决策和即时响应,适应当今快节奏发展趋势。如传统监控对年、月、周、日的频次统计,可以实现24小时内的实时监控,和管理当前实时变化的统计仪表盘数据,更能实现7*24的用户实时行为监测及秒级分析。全面运营监控指标体系不仅拥有常见的接入站点的运营监控流量指标如UV、PV、IP、新旧访客数,还建立了行为质量指标如用户的请求,统计分析的正确度 ,并可在此基础之上加入客户行为分析、统计模型调优、算法调优、网站访客背景分析、鼠标点击行为等高智能的分析功能,从而为业

文档评论(0)

baoyue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档