- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机械工程测试与控制技术教学大纲-东南大学计算机科学与工程学院
《大数据处理》教学大纲
(软件学院)
课程代码 课程名称 大数据处理 Big Data Processing 课程性质 大数据处理是软件工程专业的专业选修课,采用研讨和双语的教学方式 学分/学时 2学分 / 48学时,其中:授课24学时,讨论24学时 开课学期 三(2) 开课单位 软件学院 适用专业 软件工程 教学语言 演示文稿目前,我们所面对的一个严重挑战,是如何有效地处理规模越来越大、来势越来越猛的“数据海啸”,又称“大数据”(Big Data)。这样的数据借助互联网的快速传递无所不在:从各种科学研究基地,到重多政府机构,还有各大商业企业公司。举世界上最大社会网Facebook(脸谱)为例,现在每天有超过70 Terabytes (x1012 Bytes) 经过压缩后的新数据需要存储,管理和分析。这个数据规模还在增加。主流的商业和开源数据库系统,包括并行数据库系统,在规模上、性能上、和费用上无法对付日益增大的海量数据了。
大数据时代的到来不可阻挡。这主要是由于数据存贮在空间和时间上已发生了本质的变化。在空间上,数据可以在廉价的磁盘上通过网络系统的支持无限的存放。在时间上,先进的存贮和搜索技术使访问数据的延迟大大降低了。大数据为人类社会的各行各业带来了一次以数据为基础的探索发现和创新的机遇。大数据处理有以下几个特点:(1)处理的平台一定是大规模和可扩展的分布式系统;(2)处理数据的软件构架是MapReduce 为基础的。(3)需要各种有效的存储技术和调度算法的支持。
实验教学 无 专业培养能力 具有较好的人文社会科学素养、较强的社会责任感和良好的工程职业道德;
掌握扎实的工程基础知识和计算机专业的基本理论知识,了解软件工程技术专业的前沿发展现状和趋势;
具有较强的计算思维能力、算法设计与分析能力、程序设计能力、计算机应用系统的认知、分析、设计和应用的能力;
掌握文献检索、资料查询及运用现代信息技术获取相关信息的基本方法;
具有一定的组织管理能力、较强的表达能力和人际交往能力以及在团队中发挥作用的能力;
具有适应发展的能力以及对终身学习的正确认识和学习能力;
具有国际视野和跨文化的交流、竞争与合作能力。 课程培养学生的能力
介绍分布式算法的特点、典型的分布式算法、Map/Reduce方法、频繁项计算等方法,使得学生掌握基本的分布计算处理方法,了解前沿技术和发展趋势;(能力2、4和6)
讨论分布计算系统的安全性问题以及典型的数据管理问题,涉及安全、伦理和管理等领域的知识;(能力1、4)
讨论课的内容需要学生在自行查阅相关文献的基础上,形成书面报告,并在讨论过程中,借助PPT,展示给大家;(能力4、5、6)
讨论内容之一是由学生运用学习到的方法,对自己感兴趣的对象进行分析,需要在计算机系统上实现并演示;(能力2、3、4)
无论在授课过程中,还是在讨论过程中,学生需要事先准备提问问题,教师有意识地引导学生讨论(能力4、5、6)。 教学内容与
学时分配 第一次(3学时):Introduction/Map-Reduce,概述分布计算系统、主要组成和新技术,介绍Map/Reduce方法。使得学生对分布计算领域有初步的了解。
第二次(3学时):Map/Reduce。介绍该方法的实际应用案例,分析常用的设计方法和基本技巧。使得学生能够设计简单的基于Map/Reduce方法的系统。
第三次(3学时):Finding Similar Sets。介绍典型及常用的相似度的基本算法,使得学生基本掌握比较给定数据集的相似度方法。
第四次(3学时):Finding Similar Sets。进一步介绍不同的相似度定义、计算方法和适用范围,拓展学生对相似度概念的认识。
第五次-第八次(12学时):在指定范围内选题,每名学生报告25分钟,并提交期中报告。
第九次(3学时):Burst/Page Rank。介绍分布计算中的不确定性问题,以及该问题如何影响计算结果。介绍Page Rank算法。
第十次(3学时):Page Rank。介绍Page Rank的优化算法。使得学生了解和初步掌握网页排序方法以及影响排序结果的因素。
第十一次(3学时):Frequent Item Sets。介绍购物篮等典型算法。
第十二次-第十六次(12学时):Black Swan/Uncertainty。进一步介绍不确定性问题,并介绍相关的解决方案。使得学生在了解不确定问题的基础上,在解决实际问题时,能够考虑和在一定程度上解决问题。 教学方法 课程采用授课和讨论相间进行的方式。在授课过程中,突出新技术和新方法的特点,引导学生了解和掌握新知识。在讨论过程中,第一次采用指定题目的方式,使得学生在自行查阅课外文献的基础上,了解技术与应用之间的关
文档评论(0)