大数据平台概要设计说明书.docxVIP

下载本文档

3
0
约7.44千字
约 24页
2023-07-31 发布于江苏
举报
版权申诉

大数据平台概要设计说明书.docx

1、本文档共24页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据平台概要设计说明书大数据平台概要设计说明书文件编号：WTUT-WT88Y-W8BBGB-BWYTT-19998 版次：第一版总页数：42页受控编号：无密级：内部公开作者：日期：2013-01-28 批准：日期：审核：日期：（版权所有，翻版必究）文件修改记录修改日期修改状态修改页码及条款修改人审核人批准人目录 1. 引言 1.1 编写目的随着信息化技术的不断发展，大数据已经成为各行各业的关键词汇之一。大数据泛指巨量的数据集，因可从中挖掘出有价值的信息而受到重视。《华尔街日报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的三大技术变革。麦肯锡公司的报告指出数据是一种生产资料，大数据是下一个创新、竞争、生产力提高的前沿。世界经济论坛的报告认定大数据为新财富，价值堪比石油。因此，发达国家纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手。随着互联网特别是移动互联网的发展，信息化技术已经向社会经济各方面、大众日常生活的渗透加速。有资料显示，1998年全球网民平均每月使用流量是1MB（兆字节），2000年是10MB，2003年是100MB，2008年是1GB（1GB等于1024MB），2014年将是10GB。全网流量累计达到1EB（即10亿GB或1000PB）的时间在2001年是一年，在2004年是一个月，在2007年是一周，而2013年仅需一天，即一天产生的信息量可刻满亿张DVD光盘。我国网民数居世界之首，每天产生的数据量也位于世界前列。淘宝网站每天有超过数千万笔交易，单日数据产生量超过50TB（1TB等于1000GB），存储量40PB(1PB等于1000TB)。百度公司目前数据总量接近1000PB，存储网页数量接近1万亿页，每天大约要处理60亿次搜索请求，几十PB数据。一个8Mbps（兆比特每秒）的摄像头一小时能产生数据，一个城市若安装几十万个交通和安防摄像头，每月产生的数据量将达几十PB。医院也是数据产生集中的地方。现在，一个病人的CT影像数据量达几十GB，而全国每年门诊人数以数十亿计，并且他们的信息需要长时间保存。总之，大数据存在于各行各业，一个大数据时代正在到来。在这个大数据时代，计算平台的重要性不言而喻。计算平台是指能够支持大数据处理和分析的硬件和软件基础设施。本文将介绍我们团队设计的大数据计算平台的概要设计，包括平台的架构、功能模块、数据存储和处理等方面。我们希望通过这个平台，能够帮助用户更加高效地处理大数据，挖掘出更多有价值的信息。数据流进行实时分析和处理。它是一个开源的、分布式的实时计算系统，可以处理海量数据流，支持高可靠性、高可扩展性和高性能。Storm可以用于实时数据分析、实时计算、实时报警、实时监控等场景。 ZooKeeperZooKeeper是一个分布式的、开源的协调服务，可以实现分布式应用程序的协同工作。它提供了一个高可用的、高性能的分布式协调服务，可以用于分布式锁、分布式队列、分布式同步等场景。ZooKeeper 是一个类似于文件系统的结构，可以在其上创建节点，每个节点都可以存储数据。应用程序可以监控这些节点的状态，并在节点发生变化时得到通知。ZooKeeper的主要特点是高可用、高性能、易用性好。 FlumeFlume是一个分布式的、可靠的、高可用的日志收集、聚合和传输系统。它可以从多个数据源收集数据，并将数据传输到多个目的地。 Flume的主要组件包括Source、Channel和Sink。Source用于收集数据， Channel用于缓存数据，Sink用于将数据传输到目的地。Flume支持多种数据源和目的地，可以处理多种数据格式，具有高可靠性和高可扩展性，适用于大规模的日志收集和处理场景。数据流查询是一种连续查询的方式，它能够将结果以流的形式输出给用户。此外，数据流查询还可用于“分布式RPC”，以并行方式运行昂贵的运算。为了实现高可用、高可靠的海量日志采集、聚合和传输，Cloudera提供了Flume系统。Flume支持在日志系统中定制各类数据发送方，用于收集数据。同时，Flume还提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。ETL是数据抽取（Extract）、清洗（Cleaning）、转换（Transform）、装载（Load）的过程，是构建数据仓库的重要一环。用户从数据源抽取出所需的数据，经过数据清洗，最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，数据抽取高效稳定。MySQL是一个开放源码的小型关联式数据库管理系统，由瑞典MySQL AB公司开发。目前MySQL被广泛地应用在Inte