基于兴趣度的关联规则在学生成绩中的应用.docVIP

下载本文档

1
0
约3.55千字
约 6页
2017-06-23 发布于北京
举报
版权申诉

基于兴趣度的关联规则在学生成绩中的应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于兴趣度的关联规则在学生成绩中的应用.doc

基于兴趣度的关联规则在学生成绩中的应用　　摘要：对关联规则中Apriori算法的分析，并将其应用到学生成绩中，得到了一些先前未知的，有价值的信息，但同时又有一些无用甚至错误的规则出现，通过对关联规则的改进：加入了兴趣度阀值，提高了关联规则在数据挖掘中的精度，并且减少了无用，错误规则的产生，为学生成绩的分析提供了很好的支持。　　Abstract: This paper analysis Apriori algorithm of association rules which is applied to student achievement system, and get some previously unknown and valuable information, but meanwhile there are also some of the rules appear useless or even wrong by using this method, this paper improved the association rules: Adding the interest measure threshold. And the experiences present that this method can improve the accuracy of result by using association rules in data mining and reduce the useless, wrong rules generation from the analysis of student achievement. 　　关键词：数据挖掘；支持度；置信度；关联规则兴趣度；Apriori算法　　Key words: data mining；support degree；confidence degree；interestingness of rules；Apriori algorithm 　　中图分类号：TP39 文献标识码：A文章编号：1006-4311（2011）16-0174-02 　　　　基金项目：商洛学院科研基金项目（09SKY040）。　　作者简介：李艳（1983-），女，陕西山阳人，硕士在读，助教，主要研究方向为软件工程。　　0 引言　　近年来，随着计算机技术在教育领域的广泛应用，教学质量，效率等方面都有了大幅度的提高。学生成绩是存储在教务管理系统中的重要数据之一，但是它仅仅只是方便了学生查询成绩，教师登记成绩，在实际应用中并没有从这些成绩中挖掘出有价值的信息。数据挖掘[1]是从大量的数据中提取或“挖掘”知识，关联规则是数据挖掘的重要问题之一，通过把关联规则应用于学生成绩的分析中，从中可以发现学生成绩其实是和一些外部因素有直接关系的，根据这些分析结果，可以很好的调整教学内容，侧重点等，从而提高学生的学习能力以及成绩等。　　1 关联规则简介　　数据库关联规则最先由R．Agrawal等人提出，其目的是在交易数据库中发现各项目之间的关联规则。假设I是项的集合[2]，给定一个交易数据库，其中每个事务t是I的非空子集，即，每一个交易都与一个唯一的标识符TID（Transaction ID）对应。关联规则有两个基本的概念，支持度和置信度，其中支持度（support）是D中事务同时包含X、Y的百分比，即support（AB）=P（AB）；置信度（confidence）是包含X的事务中同时又包含Y的百分比，即confidence（AB）=P（A|B）。　　2 基于兴趣度的关联规则挖掘　　2.1 引入兴趣度的原因关联规则挖掘中最经典的算法是Apriori算法，该算法的基本思想[3]是：通过迭代方法求频繁项目集，先生成较小的频繁项目集L[k]，由它产生较大的侯选频繁集C[k+1]，再查询事务数据库，以确定哪些侯选项目集是频繁的，如此反复，直到无法生成侯选集为止。由于采用此算法将产生大量的候选集，以及可能需要重复扫描数据库，另外Apriori算法主要考虑的是支持度和置信度的阀值，没有考虑到使用者所感兴趣的问题，因此可以增加第三个阀值，也就是本文所要引入的兴趣度。　　2.2 兴趣度的算法描述在传统的关联规则算法中引入兴趣度阀值形成新的算法，即先应用Apriori算法产生大项目集，再利用大项目集产生有兴趣度约束的关联规则。具体操作为[4]：对大项目集内的每一个可能生成的规则都计算它的兴趣度（RI）和置信度（c），其中RI=P（XY）/P（X）P（Y），P（X）表示事务中X的发生概率，P（Y）表示事务中Y的发生概率，P（XY）表示事务中X和Y同时发生的概率。由此