数据科学与开源.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据科学与开源 了解将数据转换为有用信息的开源工具 M. Tim Jones 09 August 2013 独立作家 数据科学将数学与计算机科学相结合,旨在从数据中提取价值。本文将介绍数据科学,并分析这 个快速发展的领域中的优秀开源工具。 数据科学 旨在从数据集中提取有用的信息。公司很久以前就已认识到数据作为业务资产的价值。但 现在可用的巨大数据量需要采用新的方法来理解数据并高效地管理它们。越来越多的工程师和科学 精英开始构建系统,对海量数据应用数据科学。本文将向您介绍数据科学领域,以及可供如今的数 据科学家使用的开源工具。 数据科学和数据科学家 数据科学始于数据收集。适合收集的数据可能是开放数据或来自内部业务流程的数据(比如网站统 计数据)。接下来是提炼 :将数据化简为能回答具体问题的有用信息的创造性过程。通常,问题定 义了提取信息的方法。在收集和提炼步骤中还包含其他重要的步骤,比如数据清理(或预处理)和 数据可视化。 开放数据 开放数据是一种通过使每个人在需要时能够自由使用数据,从而将数据大众化的概念。逐渐开 放的数据运动与开源背后的理念不谋而合。开放数据的一个有用来源是D(参见参考 资料),这是一个美国政府网站,创建该网站是为了提高公众对联邦政府行政部门所生成数据 的访问能力。 Mike Loukides 也可将数据科学视为一种业务流程。OReilly的 通过一个富有吸引力的例子表明,数 据科学不仅是数据向信息的转换,也是数据向产品 的转换(参见参考资料 )。从这个角度讲,这个 — 领域就像当今的淘金潮 对海量信息中宝贵价值的竞争性搜索。 数据淘金潮中的勘探者被称为数据科学家。随着企业认识到其数据中的价值,对有才能的多学科工 程师和科学家的需求也不断增长。数据科学家必须拥有计算机科学、数学和统计学技能。理想情况 1 下,他们还应拥有领域知识,即对数据来源有一定的了解(医疗、财务、Web和其他领域)。图 表明数据科学是计算机科学、数学、统计学和领域知识的交集: © Copyright IBM Corporation 2013 Trademarks 数据科学与开源 Page 1 of 9 developerWorks® /developerWorks/ 1. 图 数据科学家精通的重要学科 借助这个完整的技能集,数据科学家可以将领域知识和数学转换为应用程序(从计算机科学领域 讲),挖掘数据并从中提炼出信息。关键在于一个多学科的关注点(它也可包含机器学习和信息检 索等领域)。 Company 目前,对拥有大数据分析经验的工程师和科学家拥有很高的需求。McKinsey 预计到 2018 年,胜任数据科学家角色的人才将出现短缺(参见参考资料

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档