- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
项目计划书(version10)
健康大数据项目
规划建议书
Authorizedforissueby: 签名(Signature) 日期(Date) 签名(Signature) 日期(Date)
东北大学计算机应用技术研究所
2014年10月26日
Version1.1
关于本文档
文档信息
文档名称 健康大数据项目规划建议书 作者 杨雷 审批者 说明 文件名称 修订历史(REVISIONHISTORY) Rev Section Type Date Author Remarks 1.0 All New 杨雷 项目前期准备、技术路线以、人员安排及总体规划
内容范围
本文档的目的是为了健康大数据项目。
适用的对象
本文档仅适用健康大数据项目。
目录
1 术语表 2
2 项目架构设计 3
2.1 总体架构 3
2.2 阶段目标分解 4
3 技术路线 5
3.1 2. 离线计算 Hadoop 5
3.2 Hadoop家族学习路线图 7
术语表
对本文档中所使用的各种术语进行说明。如果一些术语在需求规格说明书中已经说明过了,此处不用再重复,可以指引读者参考需求说明。
项目架构设计
总体架构
阶段目标分解
了解开发技术-开发应用-通过应用开发总结平台功能-完成平台搭建及工具开发-开发示范应用
时间范围 技术目标 应用目标 2014.11-2015.3 搭建基础运行环境
研究大数据处理技术
调试demo程序 调研应用需求、业务模式
系统功能初步设计 2015.3-2015.7 搭建基础运行环境
设计应用场景
开发典型应用 总结开发技术
完善功能设计 2015.8-2015.12 平台关键功能技术攻关 总结应用开发过程
凝聚平台模块功能
确定技术难点 2016.1-2016.9 平台功能模块开发
调研应用需求、业务模式
调研荣科示范模式,完善设计 2016.9-2016-12 平台功能模块开发
基于平台开发应用
平台模块完善 调研应用需求、业务模式 2017.1-2017.12 完善功能
开发示范应用
协助应用示范 技术路线
目前大数据处理的基本路线较为清晰,两类计算框架
在线计算(strom/spark)
离线计算(hadoop/MapReduce)
2. 离线计算 Hadoop
Hadoop家族产品
Apache?Hadoop: 是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。
Apache?Hive: 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
Apache?Pig: 是一个基于Hadoop的大规模数据分析工具,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。
Apache HBase: 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
Apache Sqoop: 是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
Apache Zookeeper: 是一个为分布式应用所设计的分布的、开源的协调服务,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度,提供高性能的分布式服务
Apache?Mahout:是基于Hadoop的机器学习和数据挖掘的一个分布式框架。Mahout用MapReduce实现了部分数据挖掘算法,解决了并行挖掘的问题。
Apache?Cassandra:是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存简单格式数据,集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身
Apache?Avro: 是一个数据序列化系统,设计用于支持数据密集型,大批量数据交换的应用。Avro是新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制
Apache?Ambari: 是一种基于Web的工具,支持Hadoop集群的供应、管理和监控。
Apache?Chukwa: 是一个开源的用于监控大型分布式系统的数据收集系统,它可以将各种各样类型的数据收集成适合 Hadoop 处理
您可能关注的文档
- 电大专科《行政管理学》.docx
- 电子工艺技术期末考试重点.docx
- 电子工业废水处理设计方案.doc
- 电子工艺设计课程实习报告模板及要求(李延平).doc
- 电子政务实验报告(整合版).doc
- 电子工程系电子工艺实训室建设方案.doc
- 电影《肖申克的救赎》赏析.doc
- 电线导管工序报验.doc
- 盖梁施工计算书.doc
- 盖梁模板技术交底书.doc
- 2025AACR十大热门靶点推荐和解读报告52页.docx
- 财务部管理报表.xlsx
- 高中物理新人教版选修3-1课件第二章恒定电流第7节闭合电路欧姆定律.ppt
- 第三单元知识梳理(课件)-三年级语文下册单元复习(部编版).pptx
- 俄罗斯知识点训练课件-七年级地理下学期人教版(2024).pptx
- 课外古诗词诵读龟虽寿-八年级语文上学期课内课件(统编版).pptx
- 高三语文二轮复习课件第七部分实用类文本阅读7.2.1.ppt
- 高考物理人教版一轮复习课件第4章第3讲圆周运动.ppt
- 高考英语一轮复习课件53Lifeinthefuture.ppt
- 2025-2030衣柜行业风险投资发展分析及投资融资策略研究报告.docx
最近下载
- 票据管理系统单位端操作手册.pdf VIP
- 2022年湖北医药学院药护学院教师招聘笔试试题及答案解析.docx VIP
- 无人机公司培训宣讲.pptx VIP
- 宝鸡市检察机关招聘聘用制书记员笔试真题2024.docx VIP
- 2024年湖北医药学院药护学院教师招聘考试笔试题库及答案解析.docx VIP
- 2024年社区工作者考试必背1000题题库及参考答案(考试直接用).docx VIP
- 矿山矿产资源储量年度报告编制要求.pdf VIP
- 急性心肌梗死医学检查.ppt VIP
- 2022年湖北医药学院药护学院辅导员招聘考试笔试试题及答案解析.docx VIP
- 2025年湖北医药学院药护学院辅导员招聘考试笔试备考题库及答案解析.docx VIP
文档评论(0)