- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
哈佛大学数据科学课程教学初析
哈佛大学数据科学课程教学初析
【摘 要】大数据时代的到来催生了对数据科学人才的强烈需求。为了尽快培养出合格的数据科学人才,国外已有不少名校开设了数据科学相关课程或专业,然而,开设这类课程的国内高校数量还非常少。本文通过调研哈佛大学数据科学课程的相关情况,为我国高校尽快建立数据科学人才培养体系提供借鉴和参考。
【关键词】数据科学 哈佛大学 课程教学
一、 引言
数据科学是一门蓬勃发展的新兴学科。它一方面研究数据本身,包括数据的各种类型、状态、属性、变化形式和变化规律;另一方面通过数据揭示自然界和人类行为的现象与规律,从而为自然科学和社会科学提供新的研究方法。随着人类进入大数据时代,数据科学在各行各业中发挥的作用日趋重要,各行业对数据科学人才的需求急剧增长,数据科学家迅速成为热门职业。然而,由于数据科学人才培养的滞后,今后几年国内外都将面临巨大的数据科学人才缺口。面对这一情况,国外很多著名大学(如哈佛大学、麻省理工学院、哥伦比亚大学、伦敦大学等)都已开设了数据科学专业或课程,开始加强数据科学人才的培养。目前,国内设立数据科学专业或课程的高校还非常少,仅有复旦大学、厦门大学等几所高校在建立实验室或开设课程方面进行了初步探索。为了填补数据科学人才空缺,国内应有更多高校承担起培养数据科学人才的重任。针对国内高校在开设数据科学课程时可能面临的经验不足的问题,笔者对哈佛大学的数据科学公开课程进行了调研。通过对哈佛大学数据科学课程教学各方面的介绍,希望能够为我国高校尽快建立数据科学人才培养体系提供借鉴和参考。
二、课程基本情况
哈佛大学从2013年开始开设数据科学课程,该课程面向有一定编程能力和统计学知识背景的本科生与研究生。课程主讲教师有两位,分别是Rafael Irizarry教授和Verena Kaynig-Fittkau博士。Irizarry教授现为哈佛大学公共卫生学院和癌症研究中心生物统计学教授,主要研究基因组学和计算生物学,尤其是基因组数据。Kaynig-Fittkau博士具有计算机科学的背景,现为哈佛大学工程与应用科学学院博士后研究员,主要研究生物医学数据与图像处理。他们还邀请了奥地利林茨大学助理教授Marc Streit博士作为客座教授来讲授该课程的部分章节,他的主要研究方向为信息可视化、可视化分析和生物数据可视化。此外,该课程还配备有一支由25名课程助教组成的教学团队,主要负责辅导学生完成课程项目。
数据科学这门课程的教学内容主要包括进行调查研究的五个关键方面:①通过数据再加工、抓取、采样、清洗以获得信息丰富且容易管理的数据集;②通过数据存储和管理以便能够快速而可靠地访问数据,特别是大数据;③通过探索性数据分析获得对数据的假设和直觉信息;④基于诸如回归、分类、聚类等统计工具进行预测;⑤通过可视化、描述、说明性总结来表达数据分析结果。
本课程的教学包括教师授课、课程实验、课后作业、课程项目、课外阅读等组成部分。课程不设期末考试,学生获得的成绩由课后作业和课程项目的完成情况决定。其中,课后作业占最终成绩的65%,课程项目个人表现占10%,团队表现占25%。
1.教师授课。频率是每周两次,每次课时长约1小时,共计持续11周,授课内容如表1所示。另外,每周还有一次由助教讲授的辅导课程。
表1 哈佛大学数据科学课程周表
周次 第1次授课内容 第2次授课内容
1 课程概述 (1)统计学总结和探索性数据分析;(2)IPython
2 可视化目标,数据类型,统计图表 (1)视觉属性,颜色,设计原则;(2)探索数据
3 多维数据、地图、文本可视化 (1)大数据可视化;
(2)距离、聚类和降维
4 数据抓取 统计推断简介
5 统计建模、方差和平滑 回归与预测
6 机器学习简介 混杂
7 矩阵代数 贝叶斯统计
8 决策树,集成学习 集成学习,性能评估
9 支持向量机和核技巧 聚类方法:k-均值,均值漂移
10 MapReduce 图表可视化与故事讲述
11 深度学习 总结和展望
2.课程实验。作为教师授课的补充,课程实验通常采用编写Python程序解决实际问题的方式进行。要求学生努力写出正确的、高质量的、可读性好的代码,同时需要考虑可重用性、错误处理等方面的问题,并且写好相应注释与文档。
3.课后作业。课后作业被认为是学习数据科学技巧和检测对材料理解程度的机会,也是学生在这门课程中获得成绩的重要来源。教师对学生每次提交作业的时间设定了严格的规定,同时为了应对事先无法预计的特殊情况,每位学生被允许有两次推迟一天交作业的机会,其他晚于截止期提交的作业都将被拒绝。
4.课程项目。从课程中期开始进行
原创力文档


文档评论(0)