- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《数据科学导论》教学大纲
课程及教师基本信息
课程名称
(中/英文)
数据科学导论
introduction to data science
学分
4+2
总学时
17×4=68
是/否含实验(实践)教学环节
是
实验(实践)教学环节学时
4(折算2学分)
课程编号周学时
4
课程性质
学科基础
授课对象
理科实验班
授课教室
/
授课时间
星期二(1-2)
星期五(7-8)
先修课程
要求
高等数学、高等代数、概论论与数理统计
任课
教师
信息
姓名
覃雄派
职称
讲师
办公时间及地点:星期一至星期五,9:00am-5:00pm
办公电话: 邮箱地址:
助教
信息
姓名:/
助教办公(答疑或辅导)时间:
习题课地点、时间:星期五(11-14)
助教联系电话、邮箱地址:/
考核
方式
平时考核
占总考核
比例
( 60%)
考核类型
课程作业
研讨交流
期中考试
占总考核
比例
/
/
/
期末考核占总考核比例
( 40%)
请写明具体的考核形式,如开卷考试、闭卷考试、论文写作等。强调诚信考试。见如下说明。
注1:平时考核( 100%)=15%平时作业 +15%project1流数据处理/结构化数据分析+15%project2文本分析 +15%project3图数据分析;
2:平时考核应占总成绩的40-70%。
考核办法说明:
本课程的考核分为三个方面,包括平时上机实践、3个大作业(即流数据处理/结构化数据分析、文本分析、图数据分析)和期末闭卷考试。
平时上机实践,学生必须完成上机练习题目,并提交上机实验报告;大作业锻炼学生综合运用所学知识、解决复杂问题的能力;期末考试考查学生对知识点的掌握和灵活运用能力。
最终成绩的计算按照平时成绩:大作业1:大作业2:大作业3:期末成绩=15:15:15:15:40的比例产生。
二、任课教师简介
三、课程简介
课程简介:
“数据科学导论”是一门入门课程,同时也是“数据科学”课程群统领式的课程,把学生引进数据科学的大门。它的目标有两个:一个是扩展学生在数据科学方面的视野培养兴趣,另一个是为学习后续课程打下坚实的基础,培养数据科学家。
教学内容分为四大模块,分别是基础(base)模块、关系数据/流数据处理(relational stream)模块、文本数据处理和分析(text)模块、图数据处理和分析(graph)模块。
基础模块为后续的3个实践模块的基础,内容包括:
概念:数据科学概论,主要介绍数据科学的基本概念、大数据及其价值、数据处理的全生命周期,包括数据的采集和获取、数据预处理/清洗和集成、数据管理、数据分析、可视化和解释等;
方法:包括各种数据模型、数据处理的不同模式(批处理和流式处理)、通用的数据分析方法、数据可视化等;
平台和工具:包括分布式计算与大数据平台(Hadoop Spark)以及Python语言。其中Python语言部分,包括对Python语言基础以及Python的几个重要的库(数据预处理库pandas、机器学习库Scikit-Learn、可视化库Matplotlib)的介绍。
基础模块的内容划分如表1所示。
表1 数据科学导论课程内容的基础模块构成
子模块
内容
base1
数据科学概论、数据处理的全生命周期(从数据到大数据,再到大数据应用)
base2
数据科学语言Python与数据可视化入门
base3
分布式计算与大数据平台Hadoop/Spark,解决大数据的规模(volume)问题
base4
各种数据模型、通用的数据分析方法入门,解决大数据类型多样(variety)的问题
base5
数据处理的不同模式(批处理和流式处理),数据清洗和数据质量保证、数据集成,解决大数据速度快(velocity)和类型多样(veracity)的问题
关系数据/流数据处理模块提供两个选项,可以根据需要进行选择。第一个选项侧重于介绍大数据的实时流式处理,内容包括流式处理基础、流式处理工具和流式处理应用,可以选择Storm作为典型流式数据处理系统加以介绍,大作业(project)部分可以针对传感器数据,实现实时汇总和可视化。第二个选项侧重于介绍关系模型、SQL语言以及分布式大数据多维分析(OLAP),工具部分可以选择MySQL以及SQL on Hadoop系统加以介绍,会用即可,大作业部分可以针对销售数据进行多维分析以及可视化。
文本数据处理和分析模块介绍相关的处理平台和分析工具,引导学生使用相关的工具实现文本的获取、处理、分词、索引与检索、分类、可视化等关键任务。大作业部分基于短文本数据实现垃圾信息的自动过滤。
图数据处理和分析模块依赖于GraphX on Spark平台(工具)或者Neo4J数据库,对图数据进行创建、查询、路径分析、Pag
您可能关注的文档
- 活性污泥数学模型.pdf
- 星巴克咖啡市场调查报告.doc
- 融资计划书完整版.pptx
- 消防安全教育培训记录.doc
- 胰岛素注射完整版.pptx
- 市场调查报告.doc
- 房地产经纪人资格证考试题及答案.docx
- 内科进副高述职报告.docx
- 员工外出培训审批表.docx
- 心身医学疾病之睡眠障碍.pptx
- 2026土石坝沥青设计实施指南.pptx
- 人工蜂群算法精解.pptx
- 商业银行信用创造机制.pptx
- 市人大常委会机关2025年度民主生活会个人对照检查发言材料.docx
- 副区长2025年度民主生活会个人对照发言检查材料(五个带头).docx
- 县委副书记2025年度民主生活会个人对照检查发言材料(五个带头).docx
- 区政府党组成员、副区长2025年度民主生活会个人对照检查发言材料(五个带头).docx
- 组织部长2025年度民主生活会个人对照检查发言材料.docx
- 街道党工委2025年度民主生活会班子对照检查发言材料.docx
- 学校宣传部部长2025年度民主生活会个人对照检查发言材料(五个带头).docx
原创力文档


文档评论(0)