web日志中用频繁访问路径挖掘算法的研究.pdfVIP

  • 6
  • 0
  • 约8.94万字
  • 约 72页
  • 2016-01-12 发布于四川
  • 举报

web日志中用频繁访问路径挖掘算法的研究.pdf

web日志中用频繁访问路径挖掘算法的研究

中文摘要 摘要:随着网络的飞速发展,商务网站逐渐增多。如何根据用户的行为习惯,优 化网站结构或主动地为用户提供一些个性化服务,成为了困扰网站管理者的主要 难题,W曲日志挖掘的出现为解决这一问题指明了新的方向。作为W曲挖掘里的 一个重要分支,w曲日志挖掘已经成为当前研究的热点。 W曲日志挖掘是将传统数据挖掘技术运用到W曲日志中,来发现用户访问站 点的行为模式和兴趣爱好,以及分析站点的使用情况。本论文深入研究了从W曲 日志中挖掘用户频繁访问路径。 首先,针对数据预处理进行了深入研究,其中在会话识别阶段引入了页面层 次的概念,使页面浏览时间阈值的确定更加准确;随后对事务识别进行了改进, 提出了IMFR算法,该算法将路径补全和事务识别合并为了一步,简化了数据的 预处理操作。 然后,作者深入研究了两类频繁路径挖掘算法,有候选集产生的算法和无候 选集产生的算法。其中,重点研究了无候选集产生算法中的WAP算法,并在WAP 算法基础上提出了一种改进算法NGCwAP,该算法通过前序遍历号和后序遍历号 来跟踪候选序列分布在哪些子树中,从而避免了物理条件树的构建。 最后,作者编程实现了一个B/S结构的W曲同志挖掘原型系统,系统采用了 改进的事务识别算法IMFR和频繁路径挖掘算

文档评论(0)

1亿VIP精品文档

相关文档