第五章 大数据技术学习路线指南.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据技术学习路线指南 大数据技术作为决策神器,日益在社会治理和企业管理中起到不容忽视的作用,美国, 欧盟都已经将大数据研究和使用列入国家发展的战略,类似谷歌,微软,百度,亚马逊等巨 型企业也同样把大数据技术视为生命线以及未来发展的关键筹码。这个系列的教程将从技术 和应用的角度解读大数据与云计算里的具体内容,和你一起拔高人生的视野。 第一节:大数据是什么 首先,大数据技术是什么? 简而言之,从大数据中提取大价值的挖掘技术。专业的说,就是根据特定目标,从数据 收集与存储,数据筛选,算法分析与预测,数据分析结果展示,以辅助作出最正确的抉择, 其数据级别通常在PB 以上,复杂程度前所未有。 关键作用是什么? 挖掘出各个行业的关键路径,帮助决策,提升社会(或企业)运作效率。 最初是在怎样的场景下提出? 在基础学科经历信息快速发展之后,就诞生了“大数据”的说法。但其实是随着数据指 数级的增长,尤其是互联网商业化和传感器移动化之后,从大数据中挖掘出某个事件现在和 未来的趋势才真正意义上被大众所接触。 大数据技术包含的内容概述? 非结构化数据收集架构,数据分布式存储集群,数据清洗筛选架构,数据并行分析模拟 架构,高级统计预测算法,数据可视化工具。 大数据技术的具体内容? 分布式存储计算架构(强烈推荐:Hadoop ) 分布式程序设计(包含:Apache Pig 或者Hive ) 分布式文件系统(比如:Google GFS) 多种存储模型,主要包含文档,图,键值,时间序列这几种存储模型(比如:BigTable ,Apollo , DynamoDB 等) 数据收集架构(比如:Kinesis ,Kafla ) 集成开发环境(比如:R-Studio ) 程序开发辅助工具(比如:大量的第三方开发辅助工具) 调度协调架构工具(比如:Apache Aurora ) 机器学习(常用的有Apache Mahout 或 H2O ) 托管管理(比如:Apache Hadoop Benchmarking ) 安全管理(常用的有Gateway) 大数据系统部署(可以看下Apache Ambari ) 搜索引擎架构( 学习或者企业都建议使用Lucene 搜索引擎) 多种数据库的演变(MySQL/Memcached ) 商业智能(大力推荐:Jaspersoft ) 数据可视化(这个工具就很多了,可以根据实际需要来选择) 大数据处理算法(10 大经典算法) 大数据中常用的分析技术? A/B 测试、关联规则挖掘、数据聚类、 数据融合和集成、遗传算法、自然语言处理、 神经网络、神经分析、优化、模式识别、 预测模型、回归、情绪分析、信号处理、 空间分析、统计、模拟、时间序列分析 大数据未来的应用趋势预测? 每个人健康和生活都需要的个性化建议; 企业管理中的选择和开拓新市场的可靠信息来源; 社会治理中大众利益的发现与政策满足。 第二节:实践原型 引言:大数据的目的在于挖掘价值,而它的本质与OODA 循环决策模型非常相似。用OODA 这个原型来理解大数据是最合适的了!在战场上,OODA 循环决策的周期越短,胜算越大; 在市场中,大数据收集和反馈信息最快,效果越好! OODA 模型 概而论之,OODA 指的是在充分观察了解你和对手的环境的前提下,模拟对手在特定环 境下的行为,进而做出一系列的对策,并且快速响应执行!之后又迅速收集反馈信息,进入 下一个OODA 循环决策。 OODA 与大数据 OODA 的整个处理流程,其实就是一个运动控制系统。大数据也是类似,从手机信息、 处理分析到决策执行,这些都与OODA 有异曲同工之妙!大数据的运算速度与OODA 的循环 速度一样,都提前决定着结果。 第三节:大数据的内幕 引言:接着前两篇对大数据的介绍之后,本篇从实际操作的角度分享大数据内部关键的运作 机制,这是在真正开始学习大数据之前对大数据的一个概览。为的是让我们成为大数据的主 人。 大数据运行机制 这是对大数据运行机制的概览,如果你阅读过上一篇(OODA),就会感觉非常熟悉。不错, 他们在概念上是如出一撤的!不过实际操作却又有巨大的不同。 收集数据: 大数据的第一站就是收集和存储海量数据(公开/ 隐私)。现在每个人都是一个巨大的数据源, 通过智能手机和个人笔记本释放出大量的个人行为信息。获取数据似乎已经变得越来越容易

文档评论(0)

0520 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档