- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1关联挖掘在资源访问历史数据分析中应用
关联挖掘在资源访问历史数据分析中应用
熊拥军 王云祥 王书方
(中南大学图书馆 湖南长沙, 410075)
摘 要:本文介绍了数据挖掘中关联规则的基本概念和方法,进一步讨论和研究了关联挖掘在图书馆资源访问数据分析中的应用。通过对图书借阅历史数据进行实验分析表明,在借阅历史数据经过一定的预处理后,用Apriori关联挖掘算法能挖掘出隐藏在历史数据背后的有用的规则和潜在的信息,这将有利于为读者提供个性化服务和对图书馆信息的采集提供决策支持。
关键词:数据挖掘;访问历史;关联规则;Apriori算法
0.引言
近年来,数据挖掘已经成为一个非常活跃的研究领域,它在电子商务等许多领域得到广泛应用[1]。数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识、数据分析、数据融合(Data Fusion)以及决策支持等。随着数据库技术的迅速发展以及数据库管理系统广泛应用,积累的数据数据背后隐藏着许多重要的信息,希望能够对其进行更高层次的分析,以便更好地利用这些数据。无法发现数据中存在的关系和规则,无法预测缺乏挖掘数据背后隐藏的知识的手段,。……,tn},tk为事务(Transcations),每个事务都有一个惟一的标识符,称为TID,tk={i1,i2,……,tn},im为项目(Item)……,im}是D中全体项目组成的集合,I的任何子集X称为D中的项目集(Itemset)))“18-21”) ∧ sex(X,“男”)==borrow(X,“武侠小说”)
根据规则中涉及的数据维:可分为单维关联规则和多维关联规则。如果关联规则中的项或属性每个只涉及一个维,则为单维关联规则,如果规则涉及到两个或多个维,则为多维关联规则。如上例中涉及到age、sex和文献分类三个属性,也为多维关联规则。
根据规则中所涉及的抽象层:可分为单层关联规则和多层关联规则[6]。对文献按图书分类法分为不同的层次,在规则中包含了不同层次的项目时,此规则为多层关联规则,如:age(x,“25…30”) ∧book(x,”计算机软件”)==borrow(x,“数据库”),计算机软件和数据库在图书分类中属于不同的层次。
1. 4 经典关联挖掘Apriori算法[2]
Agrawal等在1993年设计的算法Apriori,提出了挖掘关联规则基于频集思想的方法,Apriori算法是关联规则算法的核心,后来虽然提出很多改进算法,但都在此基础上。关于Apriori的具体算法描述如下:
输入: 事务数据库D;最小支持minsupport.
输出: D中的频繁项集L.
方法: 1) L1=所有的频繁1-项目集;
2) for(k=2;Lk-1≠Φ;k++){
3) Ck=apriori-gen(Lk-1,minsupport);
4) For all T∈D do{
5) Ct=Subset(Ck,T);
6) For all c∈Ct do
7) c.count++;
8) }
9) Lk={c∈Ck|support(c)=minsup}
10) }
11) return L={所有的Lk};
Apriori算法的第1步找出频繁1-项集的集合L1。在第2-10步中,Lk-1用于产生候选Ck,以找出Lk。Apriori_gen过程产生候选,第3步使用Apriori性质删除那些具有非频繁子集的候选.第4步扫描数据库,第5步使用subset函数找出事务中是候选的所有子集,第6和第7步对每个这样的候选累加计数.最后,所有满足最小支持度的会候选形成频繁项集L。
Apriori_gen过程
Apriori_gen过程由Lk-1产生第k次迭代时的候选集Ck,该过程描述如下:
For each itemset l1∈Lk-1
For each itemset l2∈Lk-1
if(l1[1]=l2[1])∧(l1[2]=l2[2])∧…∧(l1[k-2]=l2[k-2])∧(l1[k-1]l2[k-1]) then {c=l1[1],l1[2],…,l1[k-1],l2[k-1]};
Ck=Ck∪c;
for(c的每个包含k-1个项目的子集s){
if(s不属于 Fk-1)
从Ck中删除c;
}
return (Ck);
2.关联挖掘在图书借阅历史数据分析中的应用
在读者日常图书借阅事务中,每天都有大量的借还记录汇入数据库中。读者借阅的对象是文献资源,根据读者长期的借阅历史数据,我们会发现读者对文献的借阅存在着一定的关联、不同的学科之间也存在着关联以及不同类型的读者对文献的借阅存在着一定的模式。下面以中南大学图
文档评论(0)