- 3
- 0
- 约4.28千字
- 约 7页
- 2019-04-27 发布于广东
- 举报
大数据挖掘课程建设研究
摘要:为了解决数据挖掘课程建设中存在的不足之处,培养符合时代要求的大数据挖掘人才,引入R语言作为课程的实践软件。R语言作为目前流行的数据分析软件,有着简单易学、功能强大、可扩展性强等特点,在教学过程中可以充分利用其功能包生成各种算法的过程示意图或动画来提高教学效果,同时便于开展课程的实践教学环节。文章对基于R语言的大数据挖掘课程建设进行研究。
关键词:大数据挖掘;R语言;实践;课程建设
1R语言简介
R语言是一种用于统计计算的编程语言和环境,它是由S语言发展而来的。R语言擅长统计建模和解决数据分析相关的问题,是一种为数据而生的程序设计语言。不同于其他主流的计算机编程语言,R语言使用命令加回车的方式进行操作,以人机对话模式进行交互,使用起来较为简单。R的核心要素是数据和函数,任何数据分析都可以理解为通过函数来操作数据,学习R语言无需掌握复杂的语法。R语言可以很方便地和几乎市面上所有的数据库系统相连接,再加上诸多的R数据库支持包,使R能够方便地对数据库进行读写操作,实现的技术包括ODBC和JDBC两大方面(其中RJDBC和RpgSQL需要Java的支持)。R语言中提供了大量数据挖掘相关的函数及功能包[1]。通过以上R语言的简介可以总结出选用R语言作为数据挖掘课程的实践软件有以下5个优点:(1)R语言是免费的,相比多数价格不菲的商业统计软件而言,其优势显而易见。(2)通过数据挖掘课程的学习使得学生认识并掌握R语言的数据分析方法,为学生今后的职业发展提供更加广阔的选择空间。(3)R语言有着强大的图形和动画功能,在教学过程中可以方便地通过R语言生成各种数据挖掘算法的过程示意图和过程演示动画,能有效提高教学效果并增加学生的学习兴趣。(4)R语言的简单、易操作性可以使得拥有不同计算机编程基础的学生都能在较短时间内学会利用R语言进行数据挖掘实践操作,便于开展课程的实践教学。(5)R语言能支持各种数据库系统,因此对于先修课程数据库系统所使用的实践软件无特别要求,方便衔接形成课程体系。
2教学大纲设置
美国计算机学会数据挖掘专门兴趣小组(ACMSIGKDD)曾在2006年拟定了一套公认的标准数据挖掘课程的教学大纲[2]。大纲建议将数据挖掘的教学内容分为基础和高级专题两部分,其中基础部分包括数据挖掘导论,数据预处理,数据仓库与联机分析处理(OnlineAnalyticalProcessing,OLAP),关联规则与频繁模式挖掘、分类、聚类与孤立点分析,时间序列与序列模式,文本与Web挖掘,数据挖掘的可视化,数据挖掘应用十章内容。高级部分主要是对基础部分进行进一步的深入扩展,对不同的挖掘算法进行比较分析,并增加了数据流挖掘、多媒体数据挖掘等内容。考虑到本科阶段该课程的教学总学时一般为32~48学时,且学生的理论背景知识有限,因此需要对标准大纲的内容作一定的调整,对理论部分可以做一定删减而增加一些大数据相关的背景知识,让学生对数据挖掘的大环境有一个完整的认识。同时为了突出培养学生的实践能力,课时安排以实践教学为主,理论教学为辅。实践教学中以学生为主体,教师利用实践任务引导学生学习相关知识,在实践环节中巩固理论教学[3]。可以先安排2~4个学时来讲解R语言的基础知识,让学生掌握R语言在数据挖掘过程中的应用方法,并通过介绍一些大数据挖掘的案例让学生了解数据挖掘技术的主要应用领域及当前的研究热点问题,增强学生对数据挖掘课程的学习兴趣。在充分调动了学生对数据挖掘的兴趣后,可以通过增加课外学习学时来弥补课内学时的不足。教师可以充分利用网络上的大量有关数据挖掘的学习资源,例如一些国外大学的在线课程,教学案例等。对这些资料进行分类整合,并通过邮件、微信公众号等方法推送给学生,提高学生的课后学习效果。
3基于R语言的数据挖掘课程教学
以下以数据挖掘中常用的聚类算法为例,介绍如何利用R语言作为数据挖掘实践软件来开展教学。聚类分析是数据挖掘中一个非常重要的领域,将数据划分成有意义或有用的组(簇),使同一类别内的个体具有尽可能高的同质性,而不同类别之间的个体则应具有尽可能高的异质性[4]。聚类算法有多种,一般分为两大类:基于原型的聚类和基于密度的聚类。本科教材中主要介绍基于原型的K-mea算法,在课时充足时也可补充介绍基于密度的Dbscan算法。在介绍完聚类算法的基本概念后,可以通过加载一个名为animation的R包来演示K-mea算法的运算过程。该R包中提供了许多关于统计、数据分析类的动画功能,对教学可以起到辅助作用[5]。教师只要调用该包中的相应函数就能生成算法的执行过程动画,并可以通过转换函数将动画转换为GIF和FLASH等格式或者利用LaTeX将动画嵌入到PDF文件中。利用animation包中的生成的K-mea算法的动画截图如图1—2所示
您可能关注的文档
- 茶企网站设计分析论文.doc
- 茶文化与农业发展方式研究.doc
- 茶文化在酒店室内设计的运用.doc
- 茶文化在民间泥塑设计的表达.doc
- 茶文化在泥塑静物艺术中的表达.doc
- 茶叶包装设计论文8篇.doc
- 茶叶产品包装设计探究.doc
- 茶叶直通式气象服务研究.doc
- 拆迁失地农民再就业研究.doc
- 产品设计教学创意思维研究.doc
- 宣贯培训(2026年)《SCT 7247-2025车轮虫病诊断方法》.pptx
- 宣贯培训(2026年)《NBT 11791-2025分布式调相机并网技术规定》.pptx
- 2026—2028年中国不锈钢小直径无缝钢管行业生态全景与战略纵深研究报告:政策、技术、资本与消费四重驱动下的产业重构与机遇地图.pptx
- 宣贯培训(2026年)《DLT 5448-2025输变电工程可行性研究内容深度规定》.pptx
- 宣贯培训(2026年)《GAT 1760-2020道路交通事故多发点段安全预警系统通用技术条件》.pptx
- 宣贯培训(2026年)《GAT 2082-2023法庭科学 纤维检验 显微分光光度法》.pptx
- 宣贯培训(2026年)《GBT 6113.201-2018无线电骚扰和抗扰度测量设备和测量方法规范 第2-1部分:无线电骚扰和抗扰度测量方法 传导骚扰测量》.pptx
- 宣贯培训(2026年)《JBT 14482.2-2023多工位数控铣削加工系统 第2部分:技术规范》.pptx
- 2026—2027年前瞻:空间脑科学实验揭示长期太空飞行认知神经机制研究成果向地面脑疾病治疗与认知增强技术转化的生物科技交叉领域投资可能性.pptx
- 宣贯培训(2026年)《JBT 14479.2-2023数控旋转卧式带锯床 第2部分:技术规范》.pptx
原创力文档

文档评论(0)