大数据基础入门教程之数据科学特点及大数据学习误区.pdfVIP

大数据基础入门教程之数据科学特点及大数据学习误区.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中国IT职业教育领先品牌 精品课程 全程面授 大数据基础入门教程之数据科学特点与大数据学习误区 大数据将为社会带来三方面的变革 :思维变革、商业变革、管理变革 ,各行 各业将大数据纳入企业日常配置已成必然之势。目前我国大数据人才只有46万 , 未来 3到 5年人才缺口达 150万之多。所以学习大数据的人将会越来越多 ,那 我今天文章的主题就来教大家一个快速入门大数据学习的方法 ,我主要讲的是关 于数据科学特点与大数据学习误区方面的问题 ,共分为以下几点。 (1 )大数据学习要业务驱动 ,不要技术驱动 :数据科学的核心能力是解决 问题。大数据的核心目标是数据驱动的智能化 ,要解决具体的问题 ,不管是科学 研究问题 ,还是商业决策问题 ,抑或是政府管理问题。所以学习之前要明确问题 , 理解问题 ,所谓问题导向、目标导向 ,这个明确之后再研究和选择合适的技术加 以应用 ,这样才有针对性 ,言必 hadoop,spark的大数据分析是不严谨的。不同 的业务领域需要不同方向理论、技术和工具的支持。如文本、网页要自然语言建 模 ,随时间变化数据流需要序列建模 ,图像音频和视频多是时空混合建模 ;大数 据处理如采集需要爬虫、倒入导出和预处理等支持 ,存储需要分布式云存储、云 计算资源管理等支持 ,计算需要分类、预测、描述等模型支持 ,应用需要可视化、 知识库、决策评价等支持。所以是业务决定技术 ,而不是根据技术来考虑业务 , 这是大数据学习要避免的第一个误区。 千锋教育 中国IT职业教育领先品牌 精品课程 全程面授 (2 )大数据学习要善用开源 ,不要重复造轮子 :数据科学的技术基因在于 开源。IT 前沿领域的开源化已成不可逆转的趋势 ,Android开源让智能手机平 民化 ,让我们跨入了移动互联网时代 ,智能硬件开源将带领跨入物联网时代 ,以 Hadoop和 Spark为代表的大数据开源生态加速了去 IOE (IBM、ORACLE、 EMC )进程 ,倒逼传统 IT 巨头拥抱开源 ,谷歌和 OpenAI 联盟的深度学习开源 (以Tensorflow,Torch,Caffe等为代表 )正在加速人工智能技术的发展。数据 科学的标配语言 R和 Python更是因开源而生 ,因开源而繁荣 ,诺基亚因没把握 开源大势而衰落。为什么要开源 ,这得益于 IT 发展的工业化和构件化 ,各大领 域的基础技术栈和工具库已经很成熟 ,下一阶段就是怎么快速组合、快速搭积木、 快速产出的问题 ,不管是 linux,anroid还是 tensorflow ,其基础构件库基本就 是利用已有开源库 ,结合新的技术方法实现 ,组合构建而成 ,很少在重复造轮子。 另外 ,开源这种众包开发模式 ,是一种集体智慧编程的体现 ,一个公司无法积聚 全球工程师的开发智力 ,而一个 GitHub上的明星开源项目可以 ,所以要善用开 源和集体智慧编程 ,而不要重复造轮子 ,这是大数据学习要避免的第二个误区。 千锋教育 中国IT职业教育领先品牌 精品课程 全程面授 (3 )大数据学习要以点带面 ,不贪大求全 :数据科学要把握好碎片化与系 统性。根据前文的大数据技术体系分析 ,我们可以看到大数据技术的深度和广度 都是传统信息技术难以比拟的。我们的精力很有限 ,短时间内很难掌握多个领域 的大数据理论和技术 ,数据科学要把握好碎片化和系统性的关系。何为碎片化 , 这个碎片化包括业务层面和技术层面 ,大数据不只是谷歌 ,亚马逊 ,BAT 等互 联网企业 ,每一个行业、企业里面都有它去关注数据的痕迹 :一条生产线上的实 时传感器数据 ,车辆身上的传感数据 ,高铁设备的运行状态数据 ,交通部门的监

文档评论(0)

0520 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档