“基于大规模集群的海量数据处理技术”新型课程教学探索.docVIP

下载本文档

0
0
约6.82千字
约 12页
2018-03-16 发布于北京
举报
版权申诉

“基于大规模集群的海量数据处理技术”新型课程教学探索.doc

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

“基于大规模集群的海量数据处理技术”新型课程教学探索　　文章编号：1672-5913(2009)08-0054-04 　　摘要：本文通过对一个全新的实践课程“基于大规模集群的海量数据处理技术”的教学课程内容与教学设计的分析，对引入工业界最新的技术到教学实践过程进行了有益的尝试。通过实践表明，在现有的本科课程体系中选取适当的工业界实践技术能够有效激发学生的学习热情，提高学习兴趣，并通过小组项目的形式有效增强了学生的创新能力，合作能力和动手能力。　　关键词：集群；海量数据处理；工业界新技术；创新课程　　中图分类号：G642 　　文献标识码：B 　　　　1课程简介　　　　本课程是Google公司与清华大学合作，在清华大学开设的有关集群分布式编程的课程。通过本课程的学习，学生将深入了解到通过大规模集群的模式处理海量数据的方式与编程方法。在课程进行的过程中，来自Google公司的工程师了讲述有关使用大规模集群处理海量数据的理论知识以及相应的实际编程方法。通过实践相关的课程内容，使用开源的Apache Hadoop工具，学生亲身实践了Google文件系统以及Google所使用的分布式编程方式MapReduce。学生需要完成特定的分布式应用程序设计来巩固所学的编程知识，用于处理实际的海量数据问题。　　　　2课程的内容　　　　本课程的内容分成两个部分，一个部分是上课的内容，即是在课堂中讲述分布式编程的基本理论与方法，主要包括下面五个方面的内容：　　(1) 课程简介：主要讲述分布式编程的模式，分布式编程所需要涉及到的相关知识，包括分布式的应用问题，并行与分布的基础，分布式的历史，并行编程与同步等的相关内容。　　(2) MapReduce编程技术：主要讲述有关MapReduce编程技术的来龙去脉，相关的理论与技术实现，包括函数式编程语言的简介，大规模数据处理，MapReduce的编程模型，MapReduce编程实例，在实际编程中的错误处理以及优化等相关内容。　　(3) 分布式系统的层次：主要简介分布式编程，包括网络的基本处理，远程过程调用，事务处理系统的工作流程，可靠性等方面的内容。　　(4) 分布式文件系统：分布式文件系统是分布式编程的一块重要的内容，是构建上层应用的基础，用来存储各种应用的数据。本节的内容包括文件系统简介，网络文件系统NFS以及AFS相关的内容，Google使用的GFS(Google File System)等相关的内容。　　(5) 其它的分布式系统：将通过具体的例子来讲述在实际的可运行的分布式系统的内部结构，内容包括域名系统，PlanetLab等，这些内容为学员将来的研究提供入门的知识。提高的内容还包括Google所使用的分布式锁技术Chubby以及分布式的结构化数据处理方法BigTable。　　本课程的另外一个重要组成部分是实验和分组大项目。其中实验内容是固定的，分组大项目则由学生自由组合，一般由2～3人为一个小组。每个小组自主提出与课程内容相关的大实验内容，并有大约3个星期的时间完成大项目的内容。下面是固定实验的内容：　　实验0：实验环境Hadoop/Eclipse/Map/Reduce编程环境的介绍与熟悉。　　实验1：倒排索引实验　　倒排索引是所有搜索引擎的基础，将一个文档中出现的单词以及相关的文档编号联系在一起，以便在检索的时候能够达到快速搜索的目的。本实验通过让学生对Wikipedia的数据进行倒排索引，使得学生初步具有使用分布式环境进行大规模文档索引的基本技能。　　实验2：图算法PageRank的实现　　图算法PageRank是Google对一个网页进行评价的一个重要因素。本实验使用Wikipedia网页数据，形成一个网络图的结构。通过实现一个分布式的PageRank算法，使得学生能够在分布式系统上实现算法有一个较为深入的认识。同时结合实验一的内容，使得学生能够了解到当前搜索引擎的基本架构。　　实验3：聚类算法Canopy的实现　　在分布式系统处理大规模数据的时候，还需要考虑很多算法，其中本实验的聚类算法即是一项比较重要的内容。聚类算法通过无监督的学习过程，从一个数据集中抽取有用的信息。聚类算法的计算量比较大，本实验则是通过分布式的方法，能够处理大数据集Netflix的数据。使得学生能够对于大规模数据处理有更进一步的认识。　　　　3课程实践　　　　我们在2007年和2008年暑假分别组织了两次课程。总体来说，两次课程还是非常成功的，许多学生在这个课程上第一次体验了分布式编程，观察到程序在多个节点上同时运行的情况。　　3.1课程的准备与授课　　(1) 硬件环境的准备　　Google为本课程提