科研大数据平台项目.doc

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

科研大数据平台工程

技术建议书

目录

TOC\o1-4\h\z\u1.概述1

1.1.工程背景1

1.2.需求分析1

1.3.方案简述1

1.4.方案价值2

2.设计方案4

2.1.设计原那么4

2.2.系统架构5

2.3.分布式数据库系统5

2.3.1.MPP+ShareNothing架构5

2.3.2.核心组件6

2.3.3.高可用6

2.3.4.高性能在线扩展7

2.3.5.高性能数据加载8

2.3.6.OLAP函数9

2.4.Hadoop集群9

2.4.1.Hadoop企业版9

2.4.2.HIVE分布式内存分析引擎10

2.4.3.HBASE分布式实时在线数据处理引擎10

2.4.4.Stream流处理引擎11

2.5.效劳器虚拟化11

2.5.1.设计理念12

2.5.2.系统结构13

2.5.3.效劳器虚拟化系统组成14

2.6.云管理平台15

2.6.1.浪潮云海OS架构图15

2.6.2.浪潮云海OS实现的功能15

2.7.爬虫软件18

2.7.1.建设网络爬虫私有云18

2.7.2.高效的分布式、协同化数据采集模式20

2.7.3.爬虫路线规划能力21

2.7.4.爬虫调度和负荷规划能力21

2.7.5.极致的开放兼容平台22

.为什么需要开放的可集成的网页抓取软件22

.集搜客网络爬虫的开放接口22

3.方案优势23

3.1.浪潮MPP数据库优势23

3.1.1.高性能23

3.1.2.高性价比23

3.1.3.高易用性23

3.2.浪潮Hadoop优势23

3.3.浪潮云计算优势23

3.3.1.运营效率提升23

3.3.2.效劳水平提高24

3.3.3.实现数据中心的绿色节能24

3.3.4.分工细化使得终端用户只需专注自身业务24

3.3.5.降低总体拥有本钱(TCO)24

3.3.6.可靠性提高25

3.3.7.性能强大25

3.3.8.扩展性好25

3.3.9.可管理性25

4.推荐配置26

概述

工程背景

通过本工程的实施与建设,在以效劳科研工作为主导的原那么下,基于高性能大数据软硬件设施,构建多样化、专业化、柔性化的科研数据效劳应用平台。利用大数据技术,满足不同层级用户的需求,到达改善我校的科学研究环境与学科建设、提升我校的科研管理水平、提升我校针对物流行业的科研效劳能力等目标。

本工程分阶段实施,初期重点在于建立一个能满足业务需求的基于大数据的计算、存储以及通讯的硬件环境平台和数据管理架构。

需求分析

要构建多样化、专业化、柔性化的科研数据效劳应用平台,现有架构很难承当日益增长的数据分析需求。迫切需要寻求一种全新的系统架构帮助我校满足日常业务及数据分析。并有效利用数据的价值,提高系统平安、系统高可用等。需求分析如下:

? 寻求新的系统架构,从物理架构、数据架构、业务模型架构及应用架构等几方面满足业务需求。

? 从全局及用户长远利益考虑,规划先进的大数据平台底层架构,满足大数据时代的业务需求。

? 保护用户现有资源,考虑系统现状以及现有资源利用等,在系统建设中,充分考虑现有资源利旧。

? 系统多平台整合,建设统一的底层平台,提高系统平安等保级别,躲避系统单点风险。

方案简述

根据对背景及需求的分析,为了帮助我校能够更好地在大数据时代支撑大规模数据的应用,分别从物理架构及数据架构建设科研大数据平台系统。

? 物理架构:采用虚拟化技术,为客户打造IaaS底层系统架构。

? 数据架构:采用与客户习惯使用的SQL这种更易于理解的、交互性更好的访问接口,架构需要以MPP数据库及计算框架为核心,将MPP运算调度引擎完全融入非关系型运算调度框架,实现可以同时调度关系运算和非关系运算的调度引擎,构建统一的结构化信息提取和数据类型转换框架,将非结构化数据映射为关系模型,实现面向关系模型的全数据统一视图,从而平滑的实现MPP数据库和Hadoop的统一调度和处理,为新型的根底软件平台和上层应用提供数据效劳。

方案价值

弹性扩展

采用虚拟化技术做为底层资源抽象技术,为科研大数据平台动态提供根底计算、存储、网络资源,同时运用云平台计算技术为云数据中心提供统一的管理和运维平台,实现资源弹性效劳、流转和管理。

动态资源分配

云计算被认为是分布式处理、并行处理以及网络计算的进一步开展,其使用虚拟机力度方式,根据应用的动态对资源进行增删。

快速响应

以并行计算为核心,按需调度计算任务分配和计算资源,并提供从数据导入整合处理、计算模型设定到计算结果输出、多形式展现、应用API等完整的数据处理效劳。

文档评论(0)

199****4744 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7002121022000045

1亿VIP精品文档

相关文档