大数据技术体系及人才需求.pptxVIP

下载本文档

4
0
约2.99千字
约 23页
2020-05-29 发布于湖北
举报
版权申诉

大数据技术体系及人才需求.pptx

1、本文档共23页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据技术体系及人才需求;经李克强总理签批，2015年9月，国务院印发《促进大数据发展行动纲要》系统部署大数据发展工作。《纲要》部署三方面主要任务：一要加快政府数据开放共享，推动资源整合，提升治理能力。二要推动产业创新发展，培育新兴业态，助力经济转型。三要强化安全保障，提高管理水平，促进健康发展。;1.政府数据将成为地方政府最重要的资产。 2.大数据四要素是预警、预测、决策、智能。 3.中国大数据70%的需求集中在政府和金融应用。 4.大数据产业与传统产业深度融合。 5.数据源服务商构建大数据生态圈。 6.大数据智能会逐步取代搜索引擎。;1.物联网：为大数据分析提供数据源 2.云计算：为大数据分析提供计算平台 3.虚拟现实：为大数据分析提供应用场景 5.人工智能：模型训练需要依赖大量数据 ;1.趋势分析 2.行为分析 3.关系分析 4.异常检测;一、医??大数据看病更高效二、生物大数据改良基因三、金融大数据理财利器四、零售大数据最懂消费者五、电商大数据精准营销法宝六、农牧大数据量化生产七、交通大数据畅通出行八、教育大数据因材施教九、舆情监控大数据名探柯南十、环保大数据对抗PM2.5 ;1.数据科学家 2.大数据算法工程师 3.数据规划师 4.数据分析师 5.大数据系统架构师 6.大数据开发工程师 7.大数据运维工程师 ; 一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据的5V特点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性）。;大数据处理之一：采集数据大数据处理之二：导入数据并进行预处理大数据处理之三：进行统计与分析大数据处理之四：对数据进行挖掘大数据处理之五：可视化分析结果 ;HDFS：分布式文件系统，解决大数据存储问题。 MapReduce：分布式计算框架，解决大数据计算问题。 HBase: 列存储数据库，解决数据检索问题。 Hive：数据仓库工具，解决数据挖掘问题。;Spark Core: 包括任务调度、内存管理、错误恢复、与存储系统交互，RDD的API定义。 Spark SQL: 用来操作结构化数据。 Spark Streaming: 用来操作实时的流数据。 Mllib：提供机器学习算法库。 GraphX: 用来操作图形，可以进行并行图计算。;更快的速度:内存计算下，Spark 比 Hadoop 快100倍。易用性:Spark 提供了80多个高级运算符。通用性:Spark 提供了大量的库，包括SQL、DataFrames、MLlib、GraphX、Spark Streaming。多语言：Spark 支持Scala、python、java、R 等多种开发语言。多集群： Spark 支持 Hadoop YARN，Apache Mesos，及其自带的独立集群管理器;map :返回一个新的分布式数据集，由每个原元素经过func函数转换后组成 filter: 返回一个新的数据集，由经过func函数后返回值为true的原元素组成flatMap: 类似于map，但是每一个输入元素，会被映射为0到多个输出元素sample(withReplacement, frac, seed) :根据给定的随机种子seed，随机抽样出数量为frac的数据 union: 返回一个新的数据集，由原数据集和参数联合而成 groupByKey:在一个由（K,V）对组成的数据集上调用，返回一个（K，Seq[V])对的数据集。 reduceByKey : 在一个（K，V)对的数据集上使用，返回一个（K，V）对的数据集， Join：在类型为（K,V)和（K,W)类型的数据集上调用，返回一个（K,(V,W))对，每个key中的所有元素都在一起的数据集 groupWith: 在类型为（K,V)和(K,W)类型的数据集上调用，返回一个数据集。 cartesian: 笛卡尔积。但在数据集T和U上调用时，返回一个(T，U）对的数据集，所有元素交互进行笛卡尔积。 ;reduce(func):通过函数func先聚集各分区的数据集，再聚集分区之间的数据，func接收两个参数，返回一个新值，新值再做为参数继续传递给函数func，直到最后一个元素 collect():以数据的形式返回数据集中的所有元素给Driver程序，为防止Driver程序内存溢出，一般要控制返回的数据集大小 count()：返回数据集元素个数 first():返回数据集的第一个元素 take(n):以数组的形式返回数据集上的