一种改进Ａｐｒｉｏｒｉ的个性化信息推荐算法.docVIP

下载本文档

0
0
约4.31千字
约 7页
2018-04-06 发布于北京
举报
版权申诉

一种改进Ａｐｒｉｏｒｉ的个性化信息推荐算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种改进Ａｐｒｉｏｒｉ的个性化信息推荐算法　　摘要：对现有的Apriori算法进行改进，用分治策略引入哈希技术的方法完成了压缩侯选集，减少频繁扫描数据库的次数，克服了原有关联规则的数据挖掘算法生成频繁集比较大，且需要反复扫描数据库的问题。　　关键词：Web数据挖掘；网站个性化信息推荐；关联规则　　中图分类号：TP301文献标识码：A文章编号：1009-3044(2008)24-1265-02 　　A Personalized Information Recommendation of Improved the Apriori Algorithm 　　YANG Jie 　　(Zhejiang Financial Professional College, Hangzhou 310020, China) 　　Abstract: This paper improved the apriori algorithm, complete the compress reserve by introducing the Hash technoloy, reduce the times of scanning the data base,overcome the problem that the data mining algorithm about association rules produce the big frequency collection and scan the database again and again. 　　Key words: web data mining; web personalized information recommendation; association rules 　　　　1 引言　　　　随着网络信息技术的快速发展，网络中的信息量越来越大，Internet出现了“信息爆炸”的现象。在这种背景下，用户可能在花费了大量的时间后依然无法获取自己所需的信息资源，即产生“信息迷航”现象[1-4]。因此，通过识别不同用户的需求特点，以此采用个性化的服务策略和方式，将很好解决这个问题。　　　　2 Apriori算法　　　　Apriori等在1993年设计了一个基本算法Apriori[5]，提出了挖掘关联规则的一个重要的基于两阶段频集思想的方法，是最典型的层次算法，是布尔关联规则采掘算法中最成功的一类算法。其核心技术为其它各类布尔关联规则采掘算法所广泛采用。算法的思想是：如果说S是频繁项集，对于S的任意非空子集L，我们就可以通过计算可信度，也就是：conf support(S)/support(L)，并通过conf≥miniconf(最小可信度)来确定规则L→(S-L)是否确立(该规则由于S是频繁项集故肯定具有最小支持度)。　　例如：ABCD是频繁项集，AB是它子集　　如果conf=support(ABCD)/support(AB)≥miniconf(最小可信度) 　　那么规则AB→CD是成立的，否则不成立。　　具体到页面会话中，S是频繁项集即S中的页面是一次访问中经常同时访问的页面，而访问序列中最后的一个页面往往是用户的访问目的。所以用频繁项集产生所需的规则时，主要导出S的前n-1个页面到最后一个页面的规则，如果此规则满足最小可信度，将此规则存入模式库中。　　　　3 Apriori算法的改进　　　　从Apriori算法的思路中可以看出，当有相当数量的频繁1项集，Apriori会产生大量的候选集，而且可能需要重复的扫描数据库，这无疑降低了算法的效率，本文提出的算法是通过分治策略引入哈希技术来改进产生频繁项目集，并且用数据查询语言实现关联规则挖掘算法。要得出用户的频繁访问路径，如果用户每次访问的最大向前引用都很长的话，那就需要生成若干的k项集，产生大量的候选项目集，每次需要重复的多次的扫描同一个事务库，我们提出一种改进策略。为了讨论方便，这里对I中的每个项目用其项目编号来代替。和前面一样，把所有频繁k项目集的集合记为Lk，比如L1为所有频繁1项目集的集合。这里我们假定交易数据库中的交易以及在算法中出现的任一个项目集中的项目都是按照项目编号顺序排好的。在后面的算法中，我们容易看到，只要保证开始时也就是2项目集中的项目是有序的，那么算法的执行将自动保证任一个项目集也是有序的。　　通过利用哈希技术通过构建一个相当小的C2以产生更小的L2来导出C3。如果C2很庞大，数据库就不能有效修剪。此步之后，Li的大小随i值的增大迅速减小，从而导致很小的Li+1，这样对应的开销就小得多，极大的提高了整个过程的执行效率。　　哈希表的优点就是避