- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
毕业论文模板范文
范文一:数据挖掘技术在高校成绩分析中的应用研究
摘 要:成绩是考核学生学习情况和对知识掌握程度的重要标准。在高校的教务成绩管理系统中,保存着大量的学生成绩,这是一笔很宝贵的信息财富。这里借助数据挖掘技术从此数据中筛选出有用的信息,希望通过对数据信息的分析来指导以后的决策。文中利用数据挖掘关联规则的Apriori算法对系统中保留的学生成绩进行综合分析,不仅可以了解学生对知识的掌握程度,还可以发现课程之间的彼此内在联系,从而对人才培养方案的制定提供重要的参考依据。
关键词:数据挖掘 成绩分析 Apriori算法 应用研究
中图分类号:TP39 文献标识码:A 文章编号:1674-098X202111c-0157-03
每学期学校都要组织各种各样的考试,然后把这些成绩综合起来作为学生期末考核的一个最终成绩。由教师录入到教务处的成绩管理系统中,这些成绩只是作为一个数据长久保留,以备学生和教师查询统计。但却没有发挥和挖掘出其真正隐含的价值。可以利用数据挖掘技术深入地挖掘这些数据之间的关联关系,找出成绩之间和课程之间存在什么联系,通过这些数据可以制定出更合理的教学任务和教学计划,对提高教学工作起到积极的指导作用[1]。
1 数据挖掘概念
数据挖掘Data mining就是从大量的随机数据中提取出隐含的、不被人们所知道的、但对工作却是有用的一些潜在的知识或信息的过程。要从大量模糊的、不完全的、有噪声的数据中挖掘出有用的信息,通常要经历数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示这几个步骤。如图1所示
2 目标数据
该文中以该校计算机信息管理专业学生的成绩作为研究对象,成绩分别从《计算机文化基础》《C程序设计》《数据结构》《操作系统》《SQL》5门课程中获得。利用Apriori算法挖掘出这些课程之间的潜在关系,如对某一门课程成绩等级的分析来确定对其他课程的关联影响程度[2],从中得出各课程之间的联系紧密度。图2中的数据是从该校的教务管理系统中导出在校学生的真实成绩,经作者整理并保存到“学生成绩分析”电子表格中。
3 数据预处理
首先要做的工作就是对存在问题的数据进行清理和修正,保持数据的一致性,对缺失的数据要填补或预测,采用的方法是取该门课程的平均值进行人工填补,也可以使用数据挖掘的工具来实现。对于考试成绩有初考、补考和重修的,采用初考的成绩。
数据清理后,对现存的数据进行转换。既把课程映射成字符串,把成绩用等级区间来表示。这样每名学生的每门课程和成绩就可以用一个字符串表示出来,为后续的统计工作提供便利条件,同时也完成了数据模型的建立。具体的执行过程如以下几点。
3.1 课程名称映射
可以把上述的5门课程用A、B、C、D、E五个英文字母来代替,具体的映射过程如表1所示。
3.2 成绩映射
把成绩按照优秀、良好、中等、及格和不及格分成5个等级,每个等级分别对应数字是“1、2、3、4、5”,这样“1”就表示“优秀”,“2”就表示“良好”,依次类推。其中成绩在90分及以上为“优秀”,80~89分为“良好”,70~79分为“中等”,60~69分为“及格”,60分以下为“不及格”。具体映射关系如表2所示。
3.3 原表映射结果
利用表1和表2的映射关系,可以把原来的“学生成绩分析”表进行重新整理和转换,用“A~E”5个英文字母和“1~5”5个数字及他们组成的字符串来表示,转换的结果如表3所示。
例如:B3表示“C程序设计”成绩为中等。
4 算法构建和规则提取
Apriori算法是数据挖掘中经常使用的经典算法,通过逐层搜索的方法找出各数据项之间的关联关系,也就是通常所说的迭代方法。首先,通过扫描事务交易记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集。最后,再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规则[3-5]。
算法Apriori使用逐层迭代方法基于候选找出频繁项集。
输入:D:事务数据库;min—sup:最小支持度技术阈值。
输出:L:D中的频繁项集方法,如图3所示。
Aprior_gen做2个动作:连接和剪枝;has_infrequent_subset用来做非频繁自己测试。
具体实施步骤如以下几点。
1建立数据表,将处理过的数据存入数据表中。
2调用find_frequently_1-itemsets,统计数据表中成绩等级累计出现的次数,将结果存入频繁1项集中,即L1中。
3重复上述操作
您可能关注的文档
- 深刻的财务工作失误检讨书模板.docx
- 最新小学三年级数学下学期期中试卷.docx
- 百天誓师学生发言稿.docx
- 合同协议书模板汇总八篇.docx
- 高三数学上册备课计划.docx
- 关于游乐场的故事作文:我真行.docx
- 旅游管理学术论文参考.docx
- 关于师德师风的演讲稿4篇.docx
- 实用聘用合同范文九篇.docx
- 中学元旦作文.docx
- 实验室危废随意倾倒查处规范.ppt
- 实验室危废废液处理设施规范.ppt
- 实验室危废处置应急管理规范.ppt
- 初中地理中考总复习精品教学课件课堂讲本 基础梳理篇 主题10 中国的地理差异 第20课时 中国的地理差异.ppt
- 初中地理中考总复习精品教学课件课堂讲本 基础梳理篇 主题10 中国的地理差异 第21课时 北方地区.ppt
- 危险废物处置人员防护培训办法.ppt
- 危险废物处置隐患排查技术指南.ppt
- 2026部编版小学数学二年级下册期末综合学业能力测试试卷(3套含答案解析).docx
- 危险废物处置违法案例分析汇编.ppt
- 2026部编版小学数学一年级下册期末综合学业能力测试试卷3套精选(含答案解析).docx
最近下载
- 企业运维服务质量管理制度.docx VIP
- 2023年外国文学史题库及答案题库.pdf VIP
- 个人挖机机械租赁合同(2025版).docx VIP
- 2025年熔化焊接与热切割焊工作业证理论考试笔试试题(1000题)含答案.pdf
- 普通外科2025年终工作总结及2026年工作计划汇报PPT.pptx VIP
- 2026届广东东莞中学、广州二中、惠州一中、深圳实验、珠海一中、中山纪念中学六校高二上学期十二月联考物理试卷答案.pdf VIP
- 小学英语课堂文化意识渗透策略——基于人教版PEP教材文化内容分布统计.docx VIP
- 放射科培训计划.docx VIP
- 竞业限制案件审理标准与规则制定.docx VIP
- 江苏省南京市联合体2024--2025学年九年级上学期期末练习卷 (原卷版).pdf VIP
原创力文档


文档评论(0)