- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2大数据平台的建设
大数据平台建设大数据平台建设硬件环境服务器环境一.数据采集系统运行环境?/大数据平台需要接入政务数据、社会数据、以及其他数据。其接入方式主要包含系统对接与爬虫采集两种方式。系统对接方式运行需要依赖数据抽取前置机与中心接口服务器;爬虫采集方式需要部署分步式爬虫专用服务器。1.采集前置机:?解决前置数据抽取问题,并将数据从抽取处发向中心接口服务器。2.数据接口服务器:?为数据采集前置机提供数据接收服务器,解决数据集中化处理问题。3.分步式爬虫服务器:?用于部署分步式爬虫系统,解决采集互联网资源的问题。二.数据清洗转换服务器?置于数据接口服务器与爬虫服务器之后,用于解决数据的清洗转换问题。三.分步式存储服务器?用于解决大规模/home/dashuju/exchange数据存储问题,将数据进行分片存储,保证可靠与可用性。四.并行分析服务器?对分步式存储系统的数据进行并行分析,解决大规模数据的分析,挖掘问题。五.硬盘数据库服务器 用于部署分NoSQL数据库,解决高并发在线数据服务问题。六.内存数据库服务器 用于部署分步式内存数据库系统。七.Web服务器(展现、应用、共享、运营) 用于部署数据共享、应用、展现、运营、监控等系统。解决大数据平台对外服务问题。存储资源数据存数主要包含结构化数据存储,半结构化数据存储,非结构化数据存储等方大类数据的存储,初期提供可存储800TB数据的磁盘,后期根据业务的发展可考虑提供PB级存储磁盘。备份资源 初期提供100TB备份磁盘,对大数据平台的关键数据进行备份,备份可考虑使用第三方数据服务机构的异地备份服务。网络资源1.内部网络:?满足内部服务间交换数据,千兆或以上网络连接内部集群服务器。2.对外服务网络:?满足大数据平台对外服务需求,100MB或以上网络Internet网络。3.数据接口服务网络:?满足数据接口传输需求,100MB或以上网络Internet网络。4.爬虫专用网络:?满足爬虫采集互联网资源,100MB或以上网络Internet网络。搭建大数据的几款开源软件对于大数据开放源码工具,分为四个领域: 数据商店、 开发平台、 开发工具和集成、 分析和报告工具。数据存储区Apache Hadoop — — 云 (VMware)、 Hortonworks、 HadaptNoSql 数据库 — — MongoDB,卡桑德拉 HbaseSQL 数据库 — — MySql (Oracle),MariaDB,PostgreSQL TokuDB开发平台在 Apache Hadoop — — 黑斑羚 (大规模并行处理 (MPP) 查询引擎,可以在本地运行) ;舌 (ANSI SQL) ;模式 (分析) ;级联 (为数据分析和数据管理应用程序的 Java 开发人员的应用程序框架)在 Apache Lucene 和 Solr — — 搜索从 LucidWorks 和 ElasticSearchOpenStack (开源软件的构建私有云和公共云)。Red Hat (Hadoop 服务器标准的 Linux 发行版本)礁 (微软的 Hadoop 开发平台)风暴 (与任何队列的系统和任何数据库系统集成)开发工具Apache Mahout (机器学习的编程语言)Python 和 R (预测分析编程语言)集成、 分析和报告工具Jaspersoft (报告和分析服务器)Pentaho (数据集成和业务分析)Splunk (IT 分析平台)Talend (大数据集成、 数据管理和应用程序集成)整体而言,大数据平台从平台部署和数据分析过程可分为如下几步: 1、linux系统安装 一般使用开源版的Redhat系统--CentOS作为底层平台。为了提供稳定的硬件基础,在给硬盘做RAID和挂载数据存储节点的时,需要按情况配置。例如,可以选择给HDFS的namenode做RAID2以提高其稳定性,将数据存储与操作系统分别放置在不同硬盘上,以确保操作系统的正常运行。 2、分布式计算平台/组件安装 目前国内外的分布式系统的大多使用的是Hadoop系列开源系统。Hadoop的核心是HDFS,一个分布式的文件系统。在其基础上常用的组件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。先说下使用开源组件的优点:1)使用者众多,很多bug可以在网上找的答案(这往往是开发中最耗时的地方)。2)开源组件一般免费,学习和维护相对方便。3)开源组件一般会持续更新,提供必要的更新服务当然还需要手动做更新操作。4)因为代码开源,若出bug可自由对源码作修改维护。 再简略讲讲各组件的功能。分布式集群的资源管理器一般用Yarn,全名是Yet Another Resource Negotiator
您可能关注的文档
- 2014-2015学年宁夏银川市唐徕回民中学高二(上)期中生物试卷.doc
- 2013中考地理模拟卷十.doc
- 2013秋-本科行政管理席萍.doc
- 20140924_金科项目10月营销计划.docx
- 2013年潍坊市初中学业水平考试地理试题.doc
- 2014年12月大学英语应用能力考试A级试卷及部分答案.docx
- 2014年6月大学英语应用能力考试A级试卷及答案.docx
- 2011年生物高考题汇编.doc
- 2014届高考政治二轮能力提升训练专题六政府的职能与外交政策(含14年学法分析).doc
- 2014南通大学高等教育心理学试卷及答案.doc
- DB44_T 2607.4-2025 滨海蓝碳碳汇能力调查与核算技术指南 第4部分:盐沼.pdf
- DB43_T 3178-2024 烟叶农场建设管理要求.pdf
- DB37_T 4838-2025 含氢分布式综合能源系统运行优化指南.pdf
- DB37_T 4834-2025 高速公路集中养护工作指南.pdf
- DB44_T 2611-2025 城市排水管网有毒有害气体监测与风险分级管理技术标准.pdf
- DB44_T 2612-2025 竞赛类科普活动策划与实施服务规范.pdf
- DB43_T 2947-2024 烟草种子质量控制规程.pdf
- DB37_T 4836-2025 煤矿风量实时监测技术要求.pdf
- 叉车防撞系统,全球前22强生产商排名及市场份额(by QYResearch).docx
- 超滤膜,全球前18强生产商排名及市场份额(by QYResearch).docx
文档评论(0)