关联规则在高校图书借阅系统中应用.doc

关联规则在高校图书借阅系统中应用.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
北京物资学院2009级 研究生课程论文 论文题目 关联规则在高校图书借阅系统中的应用 所 在 班 级 0922班 课 程 名 称 数据仓库与数据挖掘 学 号 092220 姓 名 范维维 指 导 教 师 申贵成 关联规则在高校图书借阅系统中的应用 摘要: 介绍了数据挖掘中关联规则的基本概念和方法,分析了数据挖掘的关联规则在图书借阅系统中的应用。这将有利于有利于为读者提供个性化服务和对图书馆的服务提供决策支持。 关键词:图书馆,关联规则,数据挖掘   随着信息技术的不断发展,图书馆的角色也从单一的为读者提供书籍转化为知识、信息的提供者。在图书馆,积累了大量的历史数据,这些数据背后隐藏着许多重要的信息,人们希望能够进行更高层次的分析,以便更好地为读者服务。数据挖掘技术的产生使我们能够从大量信息中提取所需的信息,数据挖掘,又称数据库中的知识发现,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含的、未知的和潜在有用的信息的非平凡的过程。主流的技术方法有关联分析、决策树、遗传算法、贝叶斯网络、神经网络等。充分和有效地利用关联规则挖掘技术对于提升图书馆的信息服务有着积极的现实意义。 1 关联规则的基本原理 关联规则的基本原理可以表述为: 给定交易数据集合T, T={ t1, t2, ?tm} , 其中ti ( 1≤i≤m) 是每笔交易的数据记录, 每条记录ti 由若干个数据项组成。设X, Y 是任一交易记录ti 中可能出现的数据项。若在一个交易记录中既含有X, 又含有Y, 则称XY 在此交易中成立, 即存在着数据项X 对数据项Y 的关联, 亦可表示为包括数据项X 的交易记录中具有包括数据项Y 的趋势[ 2] 。在数据挖掘的过程中, 通常依据支持度( support, 用S 表示) 和可信度( confidence, 用C 表示) 这两个指标对满足要求的关联规则进行筛选。支持度S 用来表示关联规则XY 在整个交易集合T 中出现的普遍程度,其值用同时包含数据项X 和Y 的数据记录在整个交易集合T 中所占的百分比S%表示, 称为规则XY 具有大小为S 的支持度; 可信度C 用于揭示规则XY 在整个交易集合T 中出现的必然程度, 其值用同时包含数据项X 和Y 的记录与交易集合T 中所有包含数据项X 的比C%表示, 称为规则XY 在交易集合T 中具有大小为C 的可信度。在实际挖掘过程中,需要根据挖掘目标, 人为设定最小支持度( minsupport) 和最小可信( minconfidence) , 以排除某些因素的干扰。关联规则的挖掘过程实际上就是在交易集合T 中找出满足最小支持度和最小可信度要求的关联规则的过程。 在有些情况下, 单纯使用最小支持度和最小可信度这两个指标的组合, 会挖掘出错误的结果, 甚至得到相互矛盾的规则, 为此, 必要时还要利用增益度指标( lift, 用L 表示) 。增益度通过将关联规则XY 的可信度C 与任意情况下出现数据项Y 的可能性( 即包含数据项Y 的记录在交易集合T 中所占的百分比) 相比较, 来修剪挖掘出来的关联规则, 以避免产生错误的结果。 关联规则挖掘求解问题的步骤 从数据库中发现强关联规则的步骤为:a. 预处理与挖掘任务有关的数据,根据具体问题的要求对数据库进行相应的处理,从而生成规格化的数据库D;b. 从数据库D 中找到所有支持度大于最小支持度的项集( Itemset) ,这些项集称为频繁项集( Frequent Itemset) ;c. 使用第2 步找到的频繁项集产生期望的规则R ,这些规则必须满足最小置信度,形成输出规则R。 2关联规则的应用 关联规则挖掘的任务就是挖掘出D 中所有的强规则, 因为强规则X Y 对应的项目集(X∪ Y)必定是频集, 频集(X∪Y)导出的关联规则XY 的置信度可由频集X 和(X∪Y)的支持度计算, 因此可以把关联规则挖掘划分为以下两个子问题: ( 1) 根据最小支持度找出数据集D 中的所有频集 ( 2) 使用频繁项集生成所需要的规则。 第一个子问题的任务是迅速高效地找出D 中的全部频集, 是关联挖掘的中心问题, 是衡量关联规则挖掘算法的标准, 当找到所有的频繁项集后, 相应的关联规则将很容易生成。为了生成所有频集, 使用了递推的方法。其核心算法如下: L1={large 1- itemset}; for (k=2;Lk- 1≠Ф;k++) do begin Ck=apriori- ge

文档评论(0)

nnh91 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档