海文网络计划软件.docxVIP

下载本文档

408
0
约8.13千字
约 19页
2019-05-06 发布于贵州
举报
版权申诉

海文网络计划软件.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

海文网络计划软件　　海文国际告诉你，学大数据能干什么大数据、数据科学、　　人工智能......这些词近年来委火，天天听到这些词儿，处处看到这些字儿，无论是企业还是个人，似乎不跟这些词搭上点关系，自己就被这个时代淘汰了一样。进入大数据行业多年，总会碰到一些学员问：我很想学大数据，但我不知道学习了大数据后能干吗？如果您也有同样的疑问，不防花几分钟时间，读完此文详细了解学习大数据，你未来能干什么？　　首先想详细解释下两个词儿：数据科学与大数据　　数据科学这一概念自大数据崛起也随之成为数据领域的讨论热点，从XX年开始，“数据科学家”便成为了一个工作职位出现在各种招聘信息上。那么究竟什么是数据科学？大数据和数据科学又是什么关系？大数据在数据科学中起到怎样的作用？本文主要是想起到科普作用，使即将或正在从事数据工作的朋友对数据科学工作有一个全概貌了解，也使有想法进入大数据领域的朋友在真正从事大数据工作之前对行业的情况有所知晓。数据科学是一个混合交叉学科，要完整的成为一个数据科学家，就需要具备较好的数学和计算机知识，以及某一个专业领域的知识。所做的工作都是围绕数据打转转，在数据量爆发之后，大数据被看做是数据科学中的一个分支。　　大数据其实已经兴起好些年了，只是随着无处不在的传感器、无处不在的数据埋点，获取数据变得越来越容易、量越来越大、内容越来越多样化，于是原来传统的数据领域不得不思考重新换一个平台可以处理和使用逐渐庞大数据量的新平台。用以下两点进一步阐述：　　吴军博士提出的一个观点：现有产业　　+新技术=新产业，大数据也符合这个原则，只是　　催生出来的不仅仅是一个新产业，而是一个完整的产业链：原有的数据领域+新的大数据技术=大数据产业链；数据使用的范围，原来的数据应用主要是从现有数据中的数据进行采样，再做数据挖掘和分析，发掘出数据中的潜在规则用以预测或决策，然而采样始终会舍弃一部分数据，即会丢失一部分潜在规则和价值，随着数据量和内容的不断累积，企业越来越重视在数据应用时可以使用全量数据，可以尽可能的覆盖所有潜在规则从而发掘出可能想到或从未想到的价值。　　在我从事大数据相关工作和学习的10年时间里，我一直认为大数据是一个以数据流向　　为主的链条或管道，数据从何而来，又去往哪里，不仅是哲学上的一个问题，也可以在做数据工作的时候考虑这个问题。如下图所示，大数据领域可以分为以下几个主要方向，而这几个方向又可以分别对应一些工作职位：　　1数据平台　　DataPlatform，构建、维护稳定、安全的大数据平台，按需设计大数据架构，调研选型大数据技术产品、方案，实施部署上线。对于大数据领域涉及到的大多数技术都要有所了解，并精通某一部分，具备分布式系统的知识背景；　　对应职位：大数据架构师，数据平台工程师　　2数据采集　　DataCollecting，从Web/Sensor/RDBMS等渠道获取数据，为大数据平台提供数据来源，如ApacheNutch是开源的分布式数据采集组件，大家熟知的Python爬虫框架ScraPy等。对应职位：爬虫工程师，数据采集工程师　　3数据仓库　　DataWarehouse，有点类似于传统的数据仓库工作内容：设计数所仓库层级结构、ETL、进行数据建模，但基于的平台不一样，在大数据时代，数据仓库大多基于大数据技术实现，例如Hive就是基于Hadoop的数据仓库。　　对应职位：ETL工程师，数据仓库工程师　　4数据处理　　DataProcessing，完成某些特定需求中的处理或数据清洗，在小团队中是结合在数据仓库中一起做的，以前做ETL或许是利用工具直接配置处理一些过滤项，写代码部分会比较少，如今在大数据平台上做数据处理可以利用更多的代码方式做更多样化的处理，所需技术有Hive、Hadoop、Spark等。随便说下，千万不要小看数据处理，后续的数据分析、数据挖掘等工作都是基于数据处理的质量，可以说数据处理在整个流程中有特别重要的位置。对应职位：Hadoop工程师，Spark工程师　　5数据分析　　DataAnalysis，基于统计分析方法做数据分析：例如回归分析、方差分析等；大数据分析例如Ad-Hoc交互式分析，SQLonHadoop的技术有：Hive、Impala、Presto、SparkSQL，支持OLAP的技术有：Kylin；　　对应职位：数据分析师　　6数据挖掘　　DataMining，是一个比较宽泛的概念，可以直接理解为从大量数据中发现有用的信息。大数据中的数据挖掘，主要是设计并在大数据平台上实现数据挖掘算法：分类算法、聚类算法、关联分析等。　　对应职位：数据挖掘工程师　　7机器学习　　MachineLearning，与数据挖掘经常一起讨论，甚至被认为是同一事物。