基于关联规则数据挖掘技术在教学管理中应用.docVIP

下载本文档

8
0
约2.51千字
约 5页
2017-08-05 发布于福建
举报
版权申诉

基于关联规则数据挖掘技术在教学管理中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于关联规则数据挖掘技术在教学管理中应用

基于关联规则数据挖掘技术在教学管理中应用摘要：数据挖掘技术是一种以从大量数据中提取潜在有价值的数据规律或数据模型为目的的信息处理技术。将此技术运用在高校信息处理的工作上，可智能生成有价值的信息，用于学校教学管理与决策。本文将以目前高校普遍使用的学分制选课数据系统依托，运用数据挖掘技术中关联挖掘规则，对已有数据进行分析，为读者提供一个简单易操作的数据挖掘范例，供读者参考。关键词：Oracle，Apriori 算法；关联规则；数据挖掘；选课；用户支持中图分类号：C42 文献标识码：A 1 概述在现代科学的不断进步的今天，高校的教学管理也不可避免的要趋于日益规范化、信息化和网络化。其主要侧重点要转向项目研究、方法创新、优化服务而非单一的规范管理。通过数据挖掘和知识发现技术，我们可以从现有数据中分析提取潜在有用的知识信息并应于与教学管理中。本文将介绍学分制选课成绩信息的关联规则挖掘的相关内容，并结合Oracle 数据库的教学数据库系统，对关联数据挖掘技术进行探讨。 2 基本的挖掘算法基本的数据挖掘算法主要包含置信度(confidence)和支持度(support)两个参数。Apriori 是已知的最早的关联规则的挖掘基本算法。它的主要作用是用来描述用户对挖掘出来的规则的偏好程度。把浏览大量事务数据时的每一个的单个项累加起来，在所有事物浏览完毕后，把自身支持度小于用户给出的支持度的项目删除，以此为基础拓展到多项事务中去。 3 以Oracle 数据库系统为基础的挖掘系统在应用服务器层上进行数据逻辑处理的工作，是在普遍的C/S 和B/S 数据库应用系统中所采取的办法，我们通常把数据库当成一个储存数据的工具来看待和管理，在返还给数据库之前，我们想要先提取数据库中的某一种特定数据并进行处理。在这个过程中，Oracle 数据库是目前是最常用也是最优秀的有关于数据存储,、转换、应用的中心系统。数据挖掘系统在工作时，时常要对数据表中所有数据进行彻底扫描，因为这样可以将尽可能多的把整体数据转换和处理过程放在数据库系统内来执行，以提高数据扫描效率。 4 教学系统中的挖掘实例 4.1 学生成绩事务数据预处理首先，我们需要学生成绩的事务型数据表，这是因为使用关联挖掘算法需将具体学生的所有成绩数据元组组合并成一个事务数据。通常数据库中存储学生成绩的方式为N 对N 的元组，即“学号——课程号——成绩”的形式。不难发现，我们很难把它们组装到一个事务中去，因为每个学生在数据表中都是由多个元组组成的。倘若这样大型的事务性数据表要在在挖掘过程中重新创建，那就要花去很长的运算时间,得不偿失，所以将其一直存储在数据库内才是正确的选择。笔者认事物数据的建立可以分解为：数据集成、数据选择和预分析。（1）数据集成。在这个步骤中，从操作型环境中提取并集成的数据中语句不可避免的会含有许多语句的二义性问题，我们要首先把它统一起来或者直接消除。消除语义二义性是在教学系统的数据处理时的主要工作。例如对于《c语言程序设计》，有的表则会将其显示为：“c 语言”。而他们指的其实是一回事，所以我们要把它们合二为一。建立在园区网络的系统研发应该以两个数据集市为主题，即学生与课程。（2）数据选择。减小数据量、保证数据挖掘结果的优质性是预分析和数据选择的主要功能。因为在之前的过程中，由于数据仓库的容量会不断增加。数据挖掘时的一次耗时也会相应地加长。会给用户造成巨大的负担。（3）数据预处理。首先，要将处于离散状态的多元组的学生成绩数据和成绩转化为事务性的成绩数据，一个事务元组配对一个学生，既学号——成绩事务组。具体形式如下：(0243041087，“C语言程序设计B，软件工程B，数据结构A，?”) 或(0243041293，“C 语言程序设计A，汇编语言B，人工智能B，? ”)。其中，用一个足够长的字符串来存储，每个事务用逗号作为间隔，使用的时候通过很简单的字符串分析就能够提取出里面的所有成绩事务。 4.2 数据挖掘取得课程间的相关信息，进而指导学生选课是关联规则对学生成绩数据库进行数据挖掘的最终目标。Apriori、AIS、SETM和 Partitio 等是关联规则的主要分析算法，本文中的实例将采用Apriori 算法。在进行处理时，学生考试成绩，隶属院系等基本信息以及在数据预备阶段形成的各课程所隶属的课程分类信息都是关联规则分析中可能用到的，应该加以留存。依据学生的考试成绩，分析出各门课程之间的内在联系，提高数据挖掘的精确度，仅仅靠考虑可信度以及支持度在实际应用中是远远不够的，有时甚至还会引起不必要的误导。笔者认为可以通过在原来的关联规则上增加兴趣度阈值这一手段来实现。例如《C语言程序设计》（以下简称《C