- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据技术体系及人才需求;经李克强总理签批,2015年9月,国务院印发《促进大数据发展行动纲要》系统部署大数据发展工作。
《纲要》部署三方面主要任务:
一要加快政府数据开放共享,推动资源整合,提升治理能力。
二要推动产业创新发展,培育新兴业态,助力经济转型。
三要强化安全保障,提高管理水平,促进健康发展。;1.政府数据将成为地方政府最重要的资产。
2.大数据四要素是预警、预测、决策、智能。
3.中国大数据70%的需求集中在政府和金融应用。
4.大数据产业与传统产业深度融合。
5.数据源服务商构建大数据生态圈。
6.大数据智能会逐步取代搜索引擎。;1.物联网:为大数据分析提供数据源
2.云计算:为大数据分析提供计算平台
3.虚拟现实:为大数据分析提供应用场景
5.人工智能:模型训练需要依赖大量数据
;1.趋势分析
2.行为分析
3.关系分析
4.异常检测;一、医??大数据 看病更高效
二、生物大数据 改良基因
三、金融大数据 理财利器
四、零售大数据 最懂消费者
五、电商大数据 精准营销法宝
六、农牧大数据 量化生产
七、交通大数据 畅通出行
八、教育大数据 因材施教
九、舆情监控大数据 名探柯南
十、环保大数据 对抗PM2.5
;1.数据科学家
2.大数据算法工程师
3.数据规划师
4.数据分析师
5.大数据系统架构师
6.大数据开发工程师
7.大数据运维工程师
; 一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。;大数据处理之一:采集数据
大数据处理之二:导入数据并进行预处理
大数据处理之三:进行统计与分析
大数据处理之四:对数据进行挖掘
大数据处理之五:可视化分析结果
;HDFS:分布式文件系统,解决大数据存储问题。
MapReduce:分布式计算框架,解决大数据计算问题。
HBase: 列存储数据库,解决数据检索问题。
Hive:数据仓库工具,解决数据挖掘问题。;Spark Core: 包括任务调度、内存管理、错误恢复、与存储系统交互,RDD的API定义。
Spark SQL: 用来操作结构化数据。
Spark Streaming: 用来操作实时的流数据。
Mllib:提供机器学习算法库。
GraphX: 用来操作图形,可以进行并行图计算。;更快的速度:内存计算下,Spark 比 Hadoop 快100倍。
易用性:Spark 提供了80多个高级运算符。
通用性:Spark 提供了大量的库,包括SQL、DataFrames、MLlib、GraphX、Spark Streaming。
多语言:Spark 支持Scala、python、java、R 等多种开发语言。
多集群: Spark 支持 Hadoop YARN,Apache Mesos,及其自带的独立集群管理器;map :返回一个新的分布式数据集,由每个原元素经过func函数转换后组成
filter: 返回一个新的数据集,由经过func函数后返回值为true的原元素组成flatMap: 类似于map,但是每一个输入元素,会被映射为0到多个输出元素sample(withReplacement, frac, seed) :根据给定的随机种子seed,随机抽样出数量为frac的数据
union: 返回一个新的数据集,由原数据集和参数联合而成
groupByKey:在一个由(K,V)对组成的数据集上调用,返回一个(K,Seq[V])对的数据集。
reduceByKey : 在一个(K,V)对的数据集上使用,返回一个(K,V)对的数据集,
Join:在类型为(K,V)和(K,W)类型的数据集上调用,返回一个(K,(V,W))对,每个key中的所有元素都在一起的数据集
groupWith: 在类型为(K,V)和(K,W)类型的数据集上调用,返回一个数据集。
cartesian: 笛卡尔积。但在数据集T和U上调用时,返回一个(T,U)对的数据集,所有元素交互进行笛卡尔积。
;reduce(func):通过函数func先聚集各分区的数据集,再聚集分区之间的数据,func接收两个参数,返回一个新值,新值再做为参数继续传递给函数func,直到最后一个元素
collect():以数据的形式返回数据集中的所有元素给Driver程序,为防止Driver程序内存溢出,一般要控制返回的数据集大小
count():返回数据集元素个数
first():返回数据集的第一个元素
take(n):以数组的形式返回数据集上的
您可能关注的文档
最近下载
- 数据中心算力技术要求和测评方法.pdf VIP
- 港口起重机驾驶操作训练仿真模拟器技术方案(纯方案,109页港口起重机驾驶操作训练仿真模拟器技术方案.pdf VIP
- 青海水库工程标准化管理工作手册编制指南、管理、制度、操作手册示范文本、管理设施与标识导视系统建设与维护指引、小型水库运行管理技术指南.docx VIP
- DEC-OGP-S-AC-010-2020-1油气管道工程辐射交联聚乙烯热收缩带(套)及补伤片.pdf VIP
- 风险投资PPT课件.pptx VIP
- 二级综合医院评审标准(2025年版)实施细则.docx VIP
- 焊接裂纹产生原因及预防措施.doc VIP
- 公司筹备期间财务报销流程制度.doc VIP
- 证件领用登记表.doc VIP
- T_WHECA 002—2025(建设项目全过程工程咨询服务指南).pdf VIP
文档评论(0)