毕业论文模板范文.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
毕业论文模板范文 范文一:数据挖掘技术在高校成绩分析中的应用研究 摘 要:成绩是考核学生学习情况和对知识掌握程度的重要标准。在高校的教务成绩管理系统中,保存着大量的学生成绩,这是一笔很宝贵的信息财富。这里借助数据挖掘技术从此数据中筛选出有用的信息,希望通过对数据信息的分析来指导以后的决策。文中利用数据挖掘关联规则的Apriori算法对系统中保留的学生成绩进行综合分析,不仅可以了解学生对知识的掌握程度,还可以发现课程之间的彼此内在联系,从而对人才培养方案的制定提供重要的参考依据。 关键词:数据挖掘 成绩分析 Apriori算法 应用研究 中图分类号:TP39 文献标识码:A 文章编号:1674-098X202111c-0157-03 每学期学校都要组织各种各样的考试,然后把这些成绩综合起来作为学生期末考核的一个最终成绩。由教师录入到教务处的成绩管理系统中,这些成绩只是作为一个数据长久保留,以备学生和教师查询统计。但却没有发挥和挖掘出其真正隐含的价值。可以利用数据挖掘技术深入地挖掘这些数据之间的关联关系,找出成绩之间和课程之间存在什么联系,通过这些数据可以制定出更合理的教学任务和教学计划,对提高教学工作起到积极的指导作用[1]。 1 数据挖掘概念 数据挖掘Data mining就是从大量的随机数据中提取出隐含的、不被人们所知道的、但对工作却是有用的一些潜在的知识或信息的过程。要从大量模糊的、不完全的、有噪声的数据中挖掘出有用的信息,通常要经历数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示这几个步骤。如图1所示 2 目标数据 该文中以该校计算机信息管理专业学生的成绩作为研究对象,成绩分别从《计算机文化基础》《C程序设计》《数据结构》《操作系统》《SQL》5门课程中获得。利用Apriori算法挖掘出这些课程之间的潜在关系,如对某一门课程成绩等级的分析来确定对其他课程的关联影响程度[2],从中得出各课程之间的联系紧密度。图2中的数据是从该校的教务管理系统中导出在校学生的真实成绩,经作者整理并保存到“学生成绩分析”电子表格中。 3 数据预处理 首先要做的工作就是对存在问题的数据进行清理和修正,保持数据的一致性,对缺失的数据要填补或预测,采用的方法是取该门课程的平均值进行人工填补,也可以使用数据挖掘的工具来实现。对于考试成绩有初考、补考和重修的,采用初考的成绩。 数据清理后,对现存的数据进行转换。既把课程映射成字符串,把成绩用等级区间来表示。这样每名学生的每门课程和成绩就可以用一个字符串表示出来,为后续的统计工作提供便利条件,同时也完成了数据模型的建立。具体的执行过程如以下几点。 3.1 课程名称映射 可以把上述的5门课程用A、B、C、D、E五个英文字母来代替,具体的映射过程如表1所示。 3.2 成绩映射 把成绩按照优秀、良好、中等、及格和不及格分成5个等级,每个等级分别对应数字是“1、2、3、4、5”,这样“1”就表示“优秀”,“2”就表示“良好”,依次类推。其中成绩在90分及以上为“优秀”,80~89分为“良好”,70~79分为“中等”,60~69分为“及格”,60分以下为“不及格”。具体映射关系如表2所示。 3.3 原表映射结果 利用表1和表2的映射关系,可以把原来的“学生成绩分析”表进行重新整理和转换,用“A~E”5个英文字母和“1~5”5个数字及他们组成的字符串来表示,转换的结果如表3所示。 例如:B3表示“C程序设计”成绩为中等。 4 算法构建和规则提取 Apriori算法是数据挖掘中经常使用的经典算法,通过逐层搜索的方法找出各数据项之间的关联关系,也就是通常所说的迭代方法。首先,通过扫描事务交易记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集。最后,再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规则[3-5]。 算法Apriori使用逐层迭代方法基于候选找出频繁项集。 输入:D:事务数据库;min—sup:最小支持度技术阈值。 输出:L:D中的频繁项集方法,如图3所示。 Aprior_gen做2个动作:连接和剪枝;has_infrequent_subset用来做非频繁自己测试。 具体实施步骤如以下几点。 1建立数据表,将处理过的数据存入数据表中。 2调用find_frequently_1-itemsets,统计数据表中成绩等级累计出现的次数,将结果存入频繁1项集中,即L1中。 3重复上述操作

文档评论(0)

软件开发 + 关注
官方认证
服务提供商

十余年的软件行业耕耘,可承接各类需求

认证主体深圳鼎云文化有限公司
IP属地湖南
统一社会信用代码/组织机构代码
91440300MA5G24KH9F

1亿VIP精品文档

相关文档