本科课程教学大纲《数据科学导论》.docxVIP

本科课程教学大纲《数据科学导论》.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《数据科学导论》教学大纲 课程及教师基本信息 课程名称 (中/英文) 数据科学导论 introduction to data science 学分 4+2 总学时 17×4=68 是/否含实验(实践)教学环节 是 实验(实践)教学环节学时 4(折算2学分) 课程编号周学时 4 课程性质 学科基础 授课对象 理科实验班 授课教室 / 授课时间 星期二(1-2) 星期五(7-8) 先修课程 要求 高等数学、高等代数、概论论与数理统计 任课 教师 信息 姓名 覃雄派 职称 讲师 办公时间及地点:星期一至星期五,9:00am-5:00pm 办公电话: 邮箱地址: 助教 信息 姓名:/ 助教办公(答疑或辅导)时间: 习题课地点、时间:星期五(11-14) 助教联系电话、邮箱地址:/ 考核 方式 平时考核 占总考核 比例 ( 60%) 考核类型 课程作业 研讨交流 期中考试 占总考核 比例 / / / 期末考核占总考核比例 ( 40%) 请写明具体的考核形式,如开卷考试、闭卷考试、论文写作等。强调诚信考试。见如下说明。 注1:平时考核( 100%)=15%平时作业 +15%project1流数据处理/结构化数据分析+15%project2文本分析 +15%project3图数据分析; 2:平时考核应占总成绩的40-70%。 考核办法说明: 本课程的考核分为三个方面,包括平时上机实践、3个大作业(即流数据处理/结构化数据分析、文本分析、图数据分析)和期末闭卷考试。 平时上机实践,学生必须完成上机练习题目,并提交上机实验报告;大作业锻炼学生综合运用所学知识、解决复杂问题的能力;期末考试考查学生对知识点的掌握和灵活运用能力。 最终成绩的计算按照平时成绩:大作业1:大作业2:大作业3:期末成绩=15:15:15:15:40的比例产生。 二、任课教师简介 三、课程简介 课程简介: “数据科学导论”是一门入门课程,同时也是“数据科学”课程群统领式的课程,把学生引进数据科学的大门。它的目标有两个:一个是扩展学生在数据科学方面的视野培养兴趣,另一个是为学习后续课程打下坚实的基础,培养数据科学家。 教学内容分为四大模块,分别是基础(base)模块、关系数据/流数据处理(relational stream)模块、文本数据处理和分析(text)模块、图数据处理和分析(graph)模块。 基础模块为后续的3个实践模块的基础,内容包括: 概念:数据科学概论,主要介绍数据科学的基本概念、大数据及其价值、数据处理的全生命周期,包括数据的采集和获取、数据预处理/清洗和集成、数据管理、数据分析、可视化和解释等; 方法:包括各种数据模型、数据处理的不同模式(批处理和流式处理)、通用的数据分析方法、数据可视化等; 平台和工具:包括分布式计算与大数据平台(Hadoop Spark)以及Python语言。其中Python语言部分,包括对Python语言基础以及Python的几个重要的库(数据预处理库pandas、机器学习库Scikit-Learn、可视化库Matplotlib)的介绍。 基础模块的内容划分如表1所示。 表1 数据科学导论课程内容的基础模块构成 子模块 内容 base1 数据科学概论、数据处理的全生命周期(从数据到大数据,再到大数据应用) base2 数据科学语言Python与数据可视化入门 base3 分布式计算与大数据平台Hadoop/Spark,解决大数据的规模(volume)问题 base4 各种数据模型、通用的数据分析方法入门,解决大数据类型多样(variety)的问题 base5 数据处理的不同模式(批处理和流式处理),数据清洗和数据质量保证、数据集成,解决大数据速度快(velocity)和类型多样(veracity)的问题 关系数据/流数据处理模块提供两个选项,可以根据需要进行选择。第一个选项侧重于介绍大数据的实时流式处理,内容包括流式处理基础、流式处理工具和流式处理应用,可以选择Storm作为典型流式数据处理系统加以介绍,大作业(project)部分可以针对传感器数据,实现实时汇总和可视化。第二个选项侧重于介绍关系模型、SQL语言以及分布式大数据多维分析(OLAP),工具部分可以选择MySQL以及SQL on Hadoop系统加以介绍,会用即可,大作业部分可以针对销售数据进行多维分析以及可视化。 文本数据处理和分析模块介绍相关的处理平台和分析工具,引导学生使用相关的工具实现文本的获取、处理、分词、索引与检索、分类、可视化等关键任务。大作业部分基于短文本数据实现垃圾信息的自动过滤。 图数据处理和分析模块依赖于GraphX on Spark平台(工具)或者Neo4J数据库,对图数据进行创建、查询、路径分析、Pag

文档评论(0)

+ 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档