- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据技术学习路线指南
大数据技术作为决策神器,日益在社会治理和企业管理中起到不容忽视的作用,美国,
欧盟都已经将大数据研究和使用列入国家发展的战略,类似谷歌,微软,百度,亚马逊等巨
型企业也同样把大数据技术视为生命线以及未来发展的关键筹码。这个系列的教程将从技术
和应用的角度解读大数据与云计算里的具体内容,和你一起拔高人生的视野。
第一节:大数据是什么
首先,大数据技术是什么?
简而言之,从大数据中提取大价值的挖掘技术。专业的说,就是根据特定目标,从数据
收集与存储,数据筛选,算法分析与预测,数据分析结果展示,以辅助作出最正确的抉择,
其数据级别通常在PB 以上,复杂程度前所未有。
关键作用是什么?
挖掘出各个行业的关键路径,帮助决策,提升社会(或企业)运作效率。
最初是在怎样的场景下提出?
在基础学科经历信息快速发展之后,就诞生了“大数据”的说法。但其实是随着数据指
数级的增长,尤其是互联网商业化和传感器移动化之后,从大数据中挖掘出某个事件现在和
未来的趋势才真正意义上被大众所接触。
大数据技术包含的内容概述?
非结构化数据收集架构,数据分布式存储集群,数据清洗筛选架构,数据并行分析模拟
架构,高级统计预测算法,数据可视化工具。
大数据技术的具体内容?
分布式存储计算架构(强烈推荐:Hadoop )
分布式程序设计(包含:Apache Pig 或者Hive )
分布式文件系统(比如:Google GFS)
多种存储模型,主要包含文档,图,键值,时间序列这几种存储模型(比如:BigTable ,Apollo ,
DynamoDB 等)
数据收集架构(比如:Kinesis ,Kafla )
集成开发环境(比如:R-Studio )
程序开发辅助工具(比如:大量的第三方开发辅助工具)
调度协调架构工具(比如:Apache Aurora )
机器学习(常用的有Apache Mahout 或 H2O )
托管管理(比如:Apache Hadoop Benchmarking )
安全管理(常用的有Gateway)
大数据系统部署(可以看下Apache Ambari )
搜索引擎架构( 学习或者企业都建议使用Lucene 搜索引擎)
多种数据库的演变(MySQL/Memcached )
商业智能(大力推荐:Jaspersoft )
数据可视化(这个工具就很多了,可以根据实际需要来选择)
大数据处理算法(10 大经典算法)
大数据中常用的分析技术?
A/B 测试、关联规则挖掘、数据聚类、
数据融合和集成、遗传算法、自然语言处理、
神经网络、神经分析、优化、模式识别、
预测模型、回归、情绪分析、信号处理、
空间分析、统计、模拟、时间序列分析
大数据未来的应用趋势预测?
每个人健康和生活都需要的个性化建议;
企业管理中的选择和开拓新市场的可靠信息来源;
社会治理中大众利益的发现与政策满足。
第二节:实践原型
引言:大数据的目的在于挖掘价值,而它的本质与OODA 循环决策模型非常相似。用OODA
这个原型来理解大数据是最合适的了!在战场上,OODA 循环决策的周期越短,胜算越大;
在市场中,大数据收集和反馈信息最快,效果越好!
OODA 模型
概而论之,OODA 指的是在充分观察了解你和对手的环境的前提下,模拟对手在特定环
境下的行为,进而做出一系列的对策,并且快速响应执行!之后又迅速收集反馈信息,进入
下一个OODA 循环决策。
OODA 与大数据
OODA 的整个处理流程,其实就是一个运动控制系统。大数据也是类似,从手机信息、
处理分析到决策执行,这些都与OODA 有异曲同工之妙!大数据的运算速度与OODA 的循环
速度一样,都提前决定着结果。
第三节:大数据的内幕
引言:接着前两篇对大数据的介绍之后,本篇从实际操作的角度分享大数据内部关键的运作
机制,这是在真正开始学习大数据之前对大数据的一个概览。为的是让我们成为大数据的主
人。
大数据运行机制
这是对大数据运行机制的概览,如果你阅读过上一篇(OODA),就会感觉非常熟悉。不错,
他们在概念上是如出一撤的!不过实际操作却又有巨大的不同。
收集数据:
大数据的第一站就是收集和存储海量数据(公开/ 隐私)。现在每个人都是一个巨大的数据源,
通过智能手机和个人笔记本释放出大量的个人行为信息。获取数据似乎已经变得越来越容易
文档评论(0)