网站大量收购闲置独家精品文档,联系QQ:2885784924

现代数据讲述.pptx

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
现代数据讲述

数据科学的崛起 现代数据分析 数据科学与其他学科的关系 数据科学的构成 计算机技巧 数学和统计知识 实质性的专业知识 什么是数据科学家 数据科学家做的,就是在数据中遨游的同时进行探索,其显著特点是强烈的好奇—他们渴望寻找问题核心,追究问题实质,并把这些东西提炼为一组非常清晰、可以验证的假设。这往往会让人联想到这些都是任何一个领域最有创意的科学家所具备的特质,很显然,科学家这个头衔适合于这一新兴角色。他们实现价值提升并不是靠做报表或者 PPT 给高管,而是靠在面向客户的产品与流程方面所做出的创新。 数据科学的自我认知 数据科学家的技能需求 数据科学技能分布 技能深度与广度 数据科学家的特征 普通的数据科学家 我要完整的数据 我的数据文件夹通常很干净 我汇报数据说了什么 即使我的资料组很大,也很容易管理 我的发现测量了过去的表现 大数据科学家 在处理不完整的数据时我感到很舒适 我的数据文件通常是非常的散乱的 我研究数据看看它能告诉我什么 我的资料组非常大管理好它是项挑战 我的发现驱动生产运作决定 100% 25% MapReduce MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念Map(映射)和Reduce(归约),和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。 HTML、CSS、javascript web前端技术,控制前端页面的展示及可视化效果。在数据可视化领域具有重要的应用,数据科学家可以自定义前端web的展示效果,可以做出非常精细、交互式的数据图形/报表的展示。 OPENMP OpenMp提供的这种对于并行描述的高层抽象降低了并行编程的难度和复杂度,这样程序员可以把更多的精力投入到并行算法本身,而非其具体实现细节。对基于数据分集的多线程程序设计,OpenMP是一个很好的选择。同时,使用OpenMP也提供了更强的灵活性,可以较容易的适应不同的并行系统配置。线程粒度和负载平衡等是传统多线程程序设计中的难题,但在OpenMp中,OpenMp库从程序员手中接管了部分这两方面的工作。 但是,作为高层抽象,OpenMp并不适合需要复杂的线程间同步和互斥的场合。OpenMp的另一个缺点是不能在非共享内存系统(如计算机集群)上使用。在这样的系统上,MPI使用较多。 MPI MPI是一个库,而不是一门语言。但是按照并行语言的分类,可以把FORTRAN+MPI或者C+MPI看作是一种在原来串行语言基础上扩展后得到的并行语言。 MPI是一种消息传递编程模型,并成为这种编程模型的代表和标准。 消息传递方式是广泛应用于多类并行机的一种模式,特别是那些分布存储并行机,尽管在具体的实现上有许多不同,但通过消息完成进程通信的基本概念是容易理解的。十多年来,这种模式在重要的计算应用中已取得了实质进步。有效和可移植地实现一个消息传递系统是可行的,因此,通过定义核心库程序的语法、语义,这将在大范围计算机上可有效实现将有益于广大用户。这是MPI产生的重要原因。 精度要求 稳健性 项目时间 人员素质 平台条件 团队经验 统计模型 概率模型 最优化模型 理论驱动模型 基于Agent的模型 学习型模型 技术选择 模型选择/诊断 模型表现 约束条件 数据分析方法学 模型假设 模型反馈 模型改进 17

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档