浅谈数据科学人才的培养.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅谈数据科学人才的培养   【摘 要】在大数据时代,各行各业对数据科学人才的需求量大幅增长,而我国尚未建立起成熟有效的数据科学人才培养体系。本文从领域知识、基础理论、计算机工具和社会实践等四个方面对如何培养数据科学人才进行了探讨,以期为我国高校制定数据科学人才培养方案提供参考。   【关键词】数据科学人才 领域知识 基础理论 计算机工具 社会实践   一、引言   随着大数据时代的到来,无处不在的“数据”引发了人们空前的关注,各行各业对数据科学人才的需求量都呈现出大幅增长的趋势。然而,当前不论是国内还是国外,数据科学人才的数量与实际需求相比都存在很大的缺口。培养大量合格的数据科学人才成为一项急迫的任务。本文根据数据科学人才应当具有的知识结构,从领域知识、基础理论、计算机工具和社会实践四个方面对如何培养数据科学人才进行探讨,为国内高校建立数据科学人才培养机制提供参考。   二、领域知识   数据科学人才的职责是解决特定领域的问题。因此,数据科学人才必须具备一定的业务领域知识,包括行业信息和业务信息。一方面,这是正确开展数据分析工作的前提和保障;另一方面,积累足够的领域知识有助于评价和区分有价值的数据分析结果。   三、基础理论   数据科学人才因为是与数据打交道,所以需要具有扎实的数学理论基础。高等数学、线性代数、概率论、离散数学等课程都是需要学习的理论基础课。除此之外,统计学、数据挖掘等方面的基础理论对于建立数据科学人才的知识体系非常必要,应当重点加强。   统计学是应用数学的分支,包括描述统计和推断统计。描述统计主要研究如何收集、处理和描述数据,推断统计则是研究如何利用样本数据来推断总体特征。统计学是数据分析的灵魂,可以实现对数据的量化分析、总结、推断和预测,为相关领域问题的决策提供依据和参考。   数据挖掘是数据科学的必备理论工具。数据科学把原始数据看作是形成知识的源泉,作为交叉学科的数据挖掘正是综合运用数学、数据库、人工智能、机器学习、可视化和并行计算等方面的知识从数据海洋中提炼出有价值的信息,为领域决策提供重要支持。   四、计算机工具   在这个数据爆炸的时代,仅依靠人力处理快速增长的数据并不现实,人们必须借助计算机来进行处理大量的数据。因此,数据科学人才需要熟练掌握相应的计算机工具。   数据科学人才需要掌握的计算机工具之一就是用于存储数据的数据库管理系统,包括传统的关系数据库和新兴的NoSQL数据库。对于结构化数据,使用关系数据库和结构化查询语言(SQL)对其进行存储和查询的技术已非常成熟。随着数据多样性的程度越来越高,半结构化或非结构化数据(如文档、图像、音频、视频数据)所占的比重越来越大。这类数据更适合使用非关系的NoSQL数据库进行存储与查询。目前常用的NoSQL数据库有MongoDB、HBase等。   除了数据库,用于数据处理的编程框架和编程语言也是数据科学人才需要掌握的。当前广受关注的开源数据处理编程框架包括Hadoop、Spark、Storm等。Hadoop是一个能够对大量数据进行分布式处理的软件框架,其核心是分布式文件系统HDFS和MapReduce编程模型,能够充分利用集群的计算能力和存储能力来处理大规模数据。Spark与Hadoop的工作原理类似,但由于Spark是把中间计算结果保存在内存中而非分布式文件系统中,因此比Hadoop具有更快的运算速度。Storm是一个分布式的实时计算系统,主要针对流式数据进行处理,适用于对实时性要求较高的系统。上述三个编程框架都主要使用Java作为编程语言。此外,Scala、Python、R等也都是在数据处理中常用的编程语言。   为了将数据分析结果用最易于理解的方式呈现出来,数据可视化工具必不可少。常用的数据可视化工具包括Excel、R和Google Chart API等。另外还有不少值得关注的国产数据可视化工具,例如大数据魔镜。   五、社会实践   数据通常是来源于人们的生产生活,研究数据科学的目的也是为了更好地服务于人们的生产生活。因此,培养数据科学人才必须注重理论联系实际,通过社会实践来提高数据科学人才分析和解决实际问题的能力。   社会实践一方面是要让学生接触产业界,了解不同行业的背景和需求,特别是要利用在实际生产生活中产生的大数据进行学习,这样能够更好地理解理论知识。除了在不同的行业进行实习,参加各类大数据竞赛也是一个接触产业界的很好的方式。现在不少政府部门、学术组织、企业、高校都通过组织大数据竞赛的方式促进人才培养,推动产业发展。影响力比较大的竞赛包括中国计算机学会主办的中国大数据技术创新大赛、全国青年大数据创新大赛,阿里巴巴集团举办的天池大数据竞赛,百度和西安交通大学举办的大数据竞赛等等。通过实习或竞

文档评论(0)

lmother_lt + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档