网站大量收购闲置独家精品文档,联系QQ:2885784924

基于数据挖掘的选课系统的设计与实现.docxVIP

基于数据挖掘的选课系统的设计与实现.docx

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

-1-

基于数据挖掘的选课系统的设计与实现1

郝天永1,邓天红2

1兰州理工大学电气工程与信息工程学院,甘肃兰州,(730050)

2杭州思易电子系统工程有限公司,浙江杭州,(310013)

摘要:许多高校都拥有选课系统,并积累了大量的原始数据,这些数据中包含了大量潜在的、未知的有用信息,这些“信息”可以辅助相关部门进行合理的教学资源分配并作出相应选课决策。本文基于高校选课系统,讨论了数据预处理和数据挖掘技术[1],并应用关联规则中的FP-tree算法挖掘选课数据,获得了一些有用的规则信息,取得了良好的应用效果。

关键词:数据挖掘;关联规则;数据仓库;选课系统

1.引言

随着高校的扩招,学生人数的增加,学生管理任务的不断增加,以前手工选课的方式已经远远不能满足现在的需要,很多高校都实施了自动化选课,并在一定的运行中积累了大量的数据,这些数据一方面,占用了大量的存储空间,另一方面,又隐藏着无法辨别的、可以提供决策支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。

利用数据挖掘技术,挖掘选课系统中积累的数据的有用信息,可以使学校的相关部门有弹性的调节所开课程,调整热门课程和冷门课程的人数,调节相关课程的学分,通过选课率及相关信息做出正确的决策,鼓励和正确的引导学生选择互补的课程,这有利于高校学生整体素质的提高,也有利于各个高校教师、教室等资源的合理分配。

2.系统的总体设计

首先要确定挖掘的主题,明确主题是正确实施挖掘的基本保证,学生选课系统的大量数据是基本数据,要对其进行预处理,处理时考虑不同的粒度,以便能挖掘不同层次的信息,另外对元数据和存储方式进行深入分析,为挖掘做准备。

数据挖掘的技术相当多,根据选定主题选择合适的数据挖掘技术,使其更有效的挖掘数据中的有用隐含信息;另外,在挖掘的过程中,使用合适的度量值对挖掘结果的影响也不容忽视。将挖掘的结果用用户容易理解的方式表现出来,有助于对挖掘结果进行分析。

2.1数据预处理

数据预处理(Datapreprocessing)包括三个步骤:数据清理(Datacleaning)、数据集成(Data

1本课题得到甘肃省自然科学基金(No.ZS022-A25-035)的资助。

-2-

integration)和数据变换(Datatransformation)[2]。

对表中的原始数据进行数据清理。清除一些冗余数据,消除噪声数据,利用相关技术推导计算并填充缺值的数据、消除重复记录[3]。设计数据存储过程,将存在于不同结构的数据库的数据集成在数据存储中。在设计存储的时候,要充分为将来要做的挖掘工作考虑,为挖掘做准备。变换的主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数,同时可以利用概念层次树对原始数据进行必要的抽象,使得挖掘模块能够处理数据各个抽象层次,而不是仅对细节数据进行挖掘[3]。

对源数据进行预处理之后,得到了转化后有其特定粒度的离散化数据,把数据加载到一定的存储方式中,形成一定意义上的数据仓库,管理和使用形成的各种元数据。

2.2数据挖掘

要进行数据挖掘,必须先选择合适的数据挖掘技术,确定挖掘算法,利用算法编程来达到挖掘有用信息的目的。我们切合学生选课中各种兴趣的关联,确定使用关联规则挖掘技术,这样可以更好的发现选课系统中的兴趣关联。

关联分析是为了挖掘出隐藏在数据间的相互关系。从一组给定的数据项以及交易集合中,分析出数据项集在交易集合中出现的频度关系。在关联规则挖掘技术中,我们使用FP-growth算法[1],FP-growth采用分治思想,比Apriori算法更具效率优势。

2.2.1构造FP-tree

其主要步骤有:扫描数据库一次,得到频繁1-项集;把项按支持度递减排序;再一次扫描数据库,建立FP-tree。

FP-tree的算法:

(1)扫描事务数据库D一次。收集频繁项的集合F和它们的支持度。对F按支持度降序排序,结果为频繁项表L。

(2)创建FP-tree的根结点,以null标记它。对于D中每个事务Trans,执行:选择Trans中的频繁项,并按L中的次序排序。设排序后的频繁项表为[p|p1],其中p1是第一个元素,而p是剩余元素的表。调用insert_tree([p|p1],T)。该过程执行情况如下:如果有子女N使得N.item-name=p.item-name,则计数增加1;否则创建一个新结点N,

将其计数设置为1,链接到它的父节点T,并且通过节点链接结构将其链

文档评论(0)

166****9220 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档