基于筛选压缩的类Ａｐｒｉｏｒｉ算法的研究.docVIP

下载本文档

1
0
约8.01千字
约 12页
2018-03-16 发布于北京
举报
版权申诉

基于筛选压缩的类Ａｐｒｉｏｒｉ算法的研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于筛选压缩的类Ａｐｒｉｏｒｉ算法的研究　　摘要：该文根据用户的Web访问路径应用关联规则和类Apriori算法挖掘出该用户的频繁访问路径，通过对Apriori算法和目前针对提高该算法效率的各种优化技术的详细分析和研究，对类Apriori算法进行了改进，提出了基于筛选压缩的类Apriori挖掘算法，并进行了模拟实验，比较结果显示基于筛选压缩的类Apriori挖掘算法挖掘用户频繁遍历路径的效率高于类Apriori算法，最终可获取用户的频繁遍历路径。　　关键词：Web日志挖掘；频繁遍历路径；类Apriori算法；筛选压缩　　中图分类号：TP301文献标识码：A文章编号：1009-3044(2008)34-2038-04 　　The Research Based on the Homo-Apriori of Riddling Compression Algorithm 　　ZHANG Li, SHENG Yun-yao 　　(Computer Sicence and Engineering Department, Changzhou Institute of Mechatronic Technology, Changzhou 213164, China) 　　Abstract: Basing on the users Web access path frequent access sequences were mined by using the association rules and homo-Apriori algorithm. The Apriori algorithms of association rules and all kinds of optimized techniques which were designed to promote the algorithms efficiency were studied and discussed in detail here. Based on the basic, the homo-Apriori algorithm was improved and the homo-Apriori algorithm of riddling compression was proposed. And hasing carried on the simulation, the result demonstrats that the frequent access sequences mined by homo-Apriori algorithm of riddling compression is quickly than it mined by homo-Apriori. Eventually, the algorithm of users frequent access sequences is found. 　　Key words: Web log mining; Frequent access sequences; Homo-Apriori algorithm; Riddling Compression 　　　　1 引言　　WWW的迅速发展，在给人们带来丰富信息和极大便利的同时，也随之产生了一些觅待解决的问题，个性化的信息服务和构建智能化Web站点便是其中之一。一方面，不同层次、不同爱好和使用目的的浏览者需要个性化的信息服务；另一方面，Web站点的经营和管理者为提高网站的声誉和效益，需要了解客户需要什么和想做什么。其中包括根据大多数客户的共同兴趣，开展有针对性的信息服务，以及对特定的用户开展个性化的信息服务和电子商务活动。直接或间接地解决这个问题的途径之一就是将数据挖掘技术应用于Web服务器日志的挖掘。从用户在Web上浏览行为数据中获取用户的频繁访问路径，根据用户的频繁访问路径改进站点的设计和服务。开展个性化信息服务和有针对性的电子商务活动和构建智能化Web站点。　　2 类Apriori算法　　Web日志挖掘经过了数据预处理、事务识别后，已经生成了事务数据库，事务中包含了用户的浏览路径,也就是最大向前引用路径MFP。找出MFP中所有频繁遍历路径的过程与挖掘关联规则时从事务数据库中找出所有的频繁项集比较类似。因此，可以利用Apriori算法的思想来实现频繁遍历路径的发现过程。　　为方便以后的论述，现约定如下：　　定义1 事务的长度为其包含的页面数,一个有k个页面引用的事务称为一个k引用。　　定义2 引用s1,s2,…,sn包含k引用r1,r2,…,rk，如果存在i，使得1≤jk，都有si+j=rj。例如：ABCDE包含BC