基于WEB日志的连续频繁路径挖掘算法.doc

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于WEB日志的连续频繁路径挖掘算法

基于 w e b日志的多元线性回归连续频繁路径挖掘算法 1 引 言 we b站点的日志数据记录了用户浏览 we b站点时的大量路径信息,对这些信息的分析有利于网站设计人员掌握用户的爱好和习惯,网站设计人员可以用来对网站的结构进行优化和页面重组.基于web日志,研究频繁浏览路径已成为 web日志挖掘的热门课题.目前的挖掘算法主要集中在以下几个 问题展开: 1.采用什么值作为算法的最基本分析依据,有些算法利用浏览次数作为研究依据 ,求得的浏览路径不全面;有些算法虽考虑到了浏览时间、 浏览次数及浏览内容的长度等因素,采用兴趣度作为算法基本要素, 但兴趣度定义比较模糊,不能准确说明用户对网页感兴趣程度; 2.采用何种存储结构表示 web日志数据文件;有些算法基于矩阵实现挖掘,算法无法表现可重复浏览路径等等.首先考虑 web 日志中浏览次数,浏览时间和浏览接收字节数等因素,采用线性回归的方式计算用户的浏览兴趣度,得到更全面的兴趣度.其次采用树存储日志中的重复、连续、回溯路径,即只需访问一次数据库,建立完整的浏览路径树.最后采用倒序单子树序列口求得频繁路径. 本文基于web日志提出一种新的频繁路径的挖掘算法.首先以线性回归方法求解兴趣度,其次将此兴趣度和页面名称作为最基本要素,建立的web浏览树,此浏览树可以完整地表现出w eb日志中连续、重复的浏览路径,最后在we b浏览树上进行分析挖掘频繁浏览路径。该算法经实验证明能更全面地反映用户兴趣所在,挖掘的频繁浏览路径准确、合理. 2 算法相关描述 2 .1 线性 回归兴趣度 2 .1 .1 问题提出 对 web日志中频繁路径的挖掘首先取决于兴趣度的大小,目前用户浏览兴趣度的求法大 多采用兴趣度浏览时间*浏览次数/浏览字节数的方法,这样的兴趣度公式 不确切、不全面,说明力不够.求得的浏览兴趣度值差异较大,不易发现其规律.由 w e b日志,我们得知用户对网页感兴趣程度与浏览时间、浏览次数、浏览字节数有关,经实验计算分析,兴趣度与web日志中的三要素线性相关. 2 .1.2 解决方法 线性回归方法是一种数学优化技术 , 它通过最小化误差的平方和找到一组数据的最佳函数 匹配.本文利用线性回归误差小,数据计算精度高的特点,计算的兴趣度值更符合实际,能为下一步建立浏览树提供更可信的数据. 本文设定浏览兴趣度为因变量 y,浏览次数、浏览时间、浏览字节数分别为自变量 ,采用最小二乘法理论得到多元线性回归方程数学模型为由给定的数据库中一部分数据,求得线性回归系数因而确立回归方程.建立了回归方程后,进行显著性检验,确认建立的回归模型是否很好地拟合了原始数据,即回归方程是否有效,利用残差分析,确定回归方程是否违反了假设理论.检验回归方程有意义后,利用回归方程进行兴趣度的预测. 本文中,所有自变量都可由w e b日志得到,但因变量兴趣度y不能直接得到,于是首要问题是得到固定的y值.兴趣度即用户对 网页感兴趣 的程度,兴趣度通常可以大致分为四种情况:特别感兴趣, 一般感兴趣,偶尔感兴趣,不感兴趣.每种情况均表示一个范围,故不能将其直接定义为某一个具体的数值. 我们可以将其按百分制的形式欲以离散化赋值(由实验计算设定经验值) : 定义用户最感兴趣的页面的兴趣度为100 ,其他类兴趣度的取值范 围分别为80以上 ,4 0 ~8 0 ,2 0 —40 ,10 一20.在线性回归方程中,兴趣度值主观设定为每个兴趣度类别的中间值效果较好.利用LINEST函数计算求得线性回归方程.验证有效后,将web日志数据代入线性回归方程, 完成每个浏览页面的浏览兴趣度的预测和计算. 2 .2 web浏览树 本文中web浏览树完整记录了web日志的浏览路径信息,树中的每一个结点都是一个浏览页面,每个结点都包括页面内容和页面浏览兴趣度,树中的每棵子树都是沿着同一路径浏览的序列.树中的每一条路径上的结点都可以重复、连续出现,解决了以往路径单一的问题. web浏览树结构描述见图1 2 .3 web浏览树的生成 建立web浏览树是整个算法的基础. web浏览树从根结点R开始, 每添加一个结点时,沿不同路径先查找是否结点已在树中存在 ,没查找到相应结点,则在此路径中查找到的结点下添加一个新的儿子结点.对于查找到的结点,比较兴趣度,由不同需求可以生成三棵不同浏览树. 若选取结点兴趣度最小的,可以生成严格浏览树;若选取结点兴趣度最大的,可以生成理想浏览树;若取兴趣度平均值,可以生成一般浏览树.这样生成的浏览树可以从不同角度反映用户浏览网页情况,使整个算法更有实用价值. 算法1 描述了一般浏览树的生成算法.以下实例均以一般浏览树为例. 算法1 web浏览树生成算法 输人 : web日志转换成的数据表。 输出

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档