基于应用服务器信息Web使用模式挖掘模型设计.docVIP

  • 2
  • 0
  • 约2.77千字
  • 约 7页
  • 2018-08-29 发布于福建
  • 举报

基于应用服务器信息Web使用模式挖掘模型设计.doc

基于应用服务器信息Web使用模式挖掘模型设计

基于应用服务器信息Web使用模式挖掘模型设计   摘要:本文介绍了Web使用模式的数据挖掘,分析作为源数据的Web服务器日志的局限性,提出基于应用服务器信息的Web使用模式挖掘,并在此基础上对传统的Web使用模式挖掘模型进行了改进。   关键词:Web使用模式,数据挖掘,应用服务器信息   中图分类号:TP393文献标识码:A 文章编号:1009-3044(2008)14-20794-02      1 引言      数据挖掘和万维网应用研究的结合形成了近年来的一个活跃的研究领域――Web数据挖掘。Web挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域,是一项综合技术。   Web数据挖掘分为Web内容挖掘和Web使用数据挖掘,后者主要是挖掘网站访问日志,从中发掘出用户访问模式、获取竞争对手和客户信息以及反竞争情报活动。      2 Web使用模式的数据挖掘      Web使用模式的数据挖掘流程为:(1)收集源数据,提取数据挖掘的目标数据集;(2)数据预处理,进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等;(3)数据挖掘,根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘;(4)模式分析,对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识,并将分析所得到的知识集成到业务信息系统的组织结构中去。   在Web使用模式数据挖掘中,数据最直接的来源是Web服务器,而Web服务器日志在Web使用模式数据挖掘中有很重要的地位。对日志文件进行分析,包含两种方式:(1)先进行预处理,即将日志数据映射为关系表并采用相应的数据挖掘技术来访问日志数据;(2)直接访问日志数据以获取用户的导航信息。Web服务器还存储了其他的Web使用信息如Cookie以及用户提交的查询数据。   Web服务器日志虽然被常用作Web使用模式数据挖掘的源数据,它最初的用处是调试Web服务器,其提供的数据对于数据挖掘来说是不充分的,需要使用启发式方法重新构建事件。而且,许多事件在Web服务器中并没有被日志所记录。因此用Web服务器日志数据进行Web使用模式挖掘也不完全可靠。      3 基于应用服务器信息的Web使用模式挖掘      基于Web服务器日志数据在Web使用模式挖掘中的作用是有限的,Ron Kohavi针对这一情况提出使用应用服务器信息数据作为Web使用模式挖掘的源数据[1]。   Web服务器日志作为源数据不能识别使用者和session。而应用服务器却能控制session和使用者的注册、登陆和注销。这些能通过应用服务器直接记录下来。Web服务器日志需要与事务数据合并,但对于应用服务器,应用层写入命令数据同时它也记录下点击流事件,就可以在数据库中产生一个单独的全面的日志并在表与表之间有一致的ID号。Web服务器日志缺少了某些事件,而应用层可以记录下类似“加入购物车”等这类的事件。另外,一些特殊的有趣事件也会被记录在日志中,如浏览器重置。除了单页面事件外,高级别的商务事件也能被记录下来。Web服务器日志不能存储网页形式的信息。而应用服务器层可以解析这些网页形式。Web服务器日志包含URL而不是记录下URL中包含的语义信息。而在动态地址的应用服务器层,重要的关于网页显示内容的语义信息已被记录下来。Web服务器日志缺少产生动态内容的地址信息,而应用服务器层可以解决这个问题。Web服务器日志对于多层次文件系统而言只是一些在不同时间区的扁平文件,而应用服务器日志却能被直接产生并形成数据库,这样就保持了事务层的完整性。时间可以存储在GMT中,附带一个域表示使用者浏览器的地方时间偏差,同时需要完成应用服务器的同步。Web服务器日志包含一些多余的信息而在应用服务器中会被删去。Web服务器日志缺少许多重要信息,这些信息只能用其他方法收集。而在应用服务器上,任何信息都可以被收集并通过相应的关键字记录进同一数据库。   所以,总体上说使用应用服务器日志信息代替Web服务器日志可以克服Web服务器日志数据在许多方面的不足。   基于事务数据库基础的数据挖掘需要进行两方面的工作,一方面是整理事务数据库并将其转换成与一定挖掘技术相适应的数据存储形式,另一方面是利用数据挖掘算法挖掘出有效的信息。   Web使用模式挖掘常用的一些技术包括:(1)路径分析技术;(2)分类与聚类技术;(3)序列模式挖掘技术;(4)关联规则挖掘技术。      4 改进的Web使用模式挖掘模型      在以上分析的基础上,本文提出一种基于W

文档评论(0)

1亿VIP精品文档

相关文档