- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web使用挖掘在网站优化中应用研究
Web使用挖掘在网站优化中应用研究
[摘 要]针对互联网用户访问Web服务器产生的日志,结合Web使用挖掘相关理论,采用Apriori算法挖掘用户的频繁访问模式。首先进行数据预处理以保证数据的质量及提高挖掘的效率;然后对预处理后的数据采用Apriori算法进行关联规则挖掘,找出其中的频繁访问模式;最后分析结果,总结规则,提出建议。
[关键词]Web使用挖掘;数据预处理;Apriori算法;网站优化
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2009 . 21 . 001
[中图分类号]F224.6;TP39[文献标识码]A[文章编号]1673 - 0194(2009)21 - 0004 - 03
1引 言
Web使用挖掘是应用数据挖掘技术从Web数据中发现用户访问模式的过程[1],从而可以为用户提供个性化服务,改进系统,优化站点。本文通过对网站服务器日志进行挖掘,找出其中存在的频繁访问模式并提出网站改进意见。
2Web使用挖掘日志预处理方法
2.1数据源
Web使用挖掘主要的数据源有3种:Web服务器日志(Web server log)、代理服务器日志(Proxy log)和用户浏览网页所留下的Cookie文件。在这3种数据中,Web服务器日志是最常用也是最直接的数据源,可以直接在Web服务器上生成;对于代理服务器日志文件来说,由于用户分布很广泛,网站用户可能通过大量的代理访问该网站的网页,所以收集使用代理所留下的日志文件比较困难;而对于单个用户来说,由于涉及隐私问题,所以在用户机上收集信息也会存在问题。鉴于以上考虑,一般的Web使用挖掘大多采用Web服务器日志,所以Web使用挖掘通常也称为Web日志挖掘。
2.2 Web日志预处理过程
Web日志预处理是在Web日志挖掘前,对Web日志数据进行清理、过滤以及重新组合的过程,其目的是剔除日志中对挖掘过程无用的属性及数据,并将Web日志数据转换为挖掘算法可识别的形式。通常,Web日志数据的预处理过程主要包括:数据清理、用户识别、会话识别、路径补充、事务识别5个过程[2]。预处理过程的输入数据有服务器日志、站点拓扑结构和其他可选择信息,输出数据有用户会话文件和事务数据库。
数据清理指删除Web服务器日志中与挖掘算法无关的数据,合并某些记录。Web日志记录中大部分是网页自动产生的图片记录,用户访问网页的主要目的在于网页内容而非图片(专门提供图片的网站除外),所以需要剔除这些记录。此外,用户请求失败的记录和访问网站时自动生成的Java脚本记录也不是挖掘所需,需要剔除。所以,在数据清理中需要剔除图片记录、脚本记录和请求失败的记录以及其他需要剔除的记录。
用户识别就是区分不同的用户。由于防火墙和代理服务器的存在以及不同用户使用相同设备上网等原因,可能造成用户的不一致,一般采用基于启发式的规则[3]来识别用户:
(1)不同的IP地址代表不同的用户;
(2)当IP地址相同的时候,以不同的浏览器或者操作系统来区分不同的用户;
(3)在IP地址相同、用户使用的操作系统和浏览器也相同的情况下,判断每一个请求访问的页面与访问过的页面之间是否有链接,如果一个请求访问的页面与上一个已经访问过的所有页面之间并没有直接链接,则假设在访问Web站点的机器上同时存在着多个用户。
会话识别的目的在于区分同一用户在不同的时间所进行的不同会话,用户会话S是一个二元组,其中Userid是用户标识,PS是用户在一段时间内请求的Web页面的集合。
PS包含用户请求页面的标识符Pid和请求时间,则用户会话S可以表示为公式(2.1)所示的元组:
S=(2.1) 通常采用设定时间阈值的办法来确定不同的会话,即当用户在某一会话中超过了设定的时间阈值,就认定该用户进行了下一个会话。如设定整个会话的时间阈值为T,则对于公式(2.1)中的会话必须满足公式(2.2)所示条件:
time k-time 1≤T (2.2)
否则认为该用户进行了不少于一次的会话。一般的应用中将时间阈值设定为30分钟,但是L .Catledge和J.Pikow[4]由经验数据得出时间阈值设为25.5分钟更好。本文中采用30分钟作为时间阈值。
由于本地缓存和代理服务器缓存的存在,使得服务器日志会遗漏一些重要的页面请求。路径补充的任务就是将这些遗漏的请求补充到用户会话当中。如果两个页面之间没有直接的超链接关系,则很可能用户采用了浏览器的“后退”功能,而由于本地缓存的存在,日志中没有记录相关的信息,这时就需要进行路径补充。路径补充需要将日志记录与网页的拓扑结构相结
文档评论(0)