数据挖掘课程分析-张娜.doc

下载文档 降价啦

11
0
约8.03千字
约 10页
2016-12-04 发布于重庆
举报
版权申诉
保障服务

数据挖掘课程分析-张娜.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据仓库与数据挖掘作业学院：数学与系统科学学院专业：信息与计算科学班级： 12-1 姓名：张娜学号： 1201051333 2015年 12月 12 日山东科技大学基于数据挖掘的课程相关性分析一、数据挖掘技术简介 1.1 数据挖掘的概念数据挖掘从广义上讲是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。 1.2 数据挖掘的分析方法对于不同的问题类型以及数据的规模和类型 ,从功能上可以将数据挖掘分析方法分为以下 4 种: (1)关联分析:顾名思义 ,它的目的就是为了挖掘出隐藏在数据间的相互关系。 (2)序列模式分析:序列模式分析和关联分析法相似 ,其目的也是为了挖掘出数据之间的联系 ,但序列模式分析的侧重点在于分析数据间的前后(因果)关系。 (3)分类分析:分析时首先为每一个记录赋予一个标记(即一组具有不同特征的类别) ，即按标记分类记录 ,然后检查这些标定的记录 ,描述出这些记录的特征。 (4)聚类分析:与分类分析法不同 ,聚类分析法的输入集是一组未标定的记录 ,其目的是根据一定的规则 ,合理地划分记录集合 ,并用显式或隐式的方法描述不同的类别。针对本年级的学生成绩的数据结构 ,分析课程相关性 ,采用关联规则的挖掘方法是最为直接有效的。二、联规则挖掘方法 2.1 关联规则的形式定义设 I = [ ]是项的集合。设任务相关的数据集 D 是事务数据库的集合 ,其中每个事务 T 是项目的集合 ,使得 T 属于 I。每一个事务有一个表示符 ,称作 TID。设 A 是一个项目集 ,事务 T 包含 A 当且仅当A 属于T。关联规则就是一个形如 A = B 的逻辑蕴涵式 ,其中 A 属于 I ,B 属于 I 且 A ∩B 为非空集。关联规则 A = B在事务集 D 中成立 ,其一需具有支持度 S ,其中 S 是 D 中事务包含A ∪B (即 A 和 B 二者)的数量 ,即概率P(A∪B) 。表述为 : support(A = B) = P(A∪B) = S 支持度定义了项目在整个数据库中所占的比例 ,置信度定义了发现关联规则的强度。根据上面的论述 ,关联规则的发现任务或问题可以定义为:给定一个事务数据库 D ,求出所有满足最小支持度 Smin的关联规则。 2.2 原始数据处理由于学生成绩的评分标准并不统一，有5级制有百分制，所以我们先将成绩数据处理一下，用5级制来表示学生的成绩。同时我们给定一个最低成绩等级的阀值level，因为课程的相关性分析，我们是根据同一学生几门课程同时优秀来得出课程之间的关系的，所以我们应该把成绩优秀的课程挑出来，即在阀值level之上的认为是优秀的。这样我们就将原始的成绩表，转化为了一个二维矩阵，行数就是学生数，而每一行就是每一个学生成绩在阀值level之上的课程编号，这里课程的编号可以简单用0，1，2，3...表示。通过这样处理过的成绩表，数据量就减少了，有利于提高效率。 2.3 Apriori 算法分析与设计 Apriori 算法是发现关联规则领域的经典算法 ,它使用一种称作逐层搜索的迭代方法。首先 ,找出频繁 1项集的集合 ,记作 L1。L1 用于找频繁 2项集的集合L2 ,而 L2 用于找 L3 ,如此下去 ,直到不能找到频繁 k项集。可以看出找每个 Lk 需要一次数据库扫描。这也体现出 Apriori 的在效率上的一些问题 ,当数据库或 k太大时 ,算法的时耗太大 ,效率太低几乎无法完成 ,特别是频繁集很长或最小支持度非常小时 ,例如 ,当有 10个频繁 1项集时 ,Apriori 算法就会产生多于 10个的候选 2项集。因此算法的可扩展性不强;另外 ,算法有时会推出一些虚假规则 ,认为很难对这些规则作出区分。为了提高算法的效率 ,我们采用临时表的方法改进算法 ,这种方法可以利用以下两个事实: 对于已知规模的事务数据库 D ,任意一个项集 I 的出现支持度与规模小于[I]的事务无关。所以在第 i 次扫描数据库 D 时 ,可以删除规模小于[I]的事务记录。 k候选项集中不包含任何( k - 1) 项集的项集一定不是频繁项集 ,因此 k 次扫描时可以将这样的事务记录立即删除 ,从而减少了下次需要扫描的记录数。用临时表来完成频繁项集的选择 ,首先把( k - 1) 项集中的第一个项集添加进临时表中;然后把最后一项不同的其它项集添加进临时表 ,生成 k项集 ,计算其支持度 ,若支持度大于最小支持度 ,则生成该频繁项并保存 ,否则删除。依此循环 ,直至生成所有的频繁项。实现如下: 算法:Apriori 使用根据