一种Web使用模式挖掘模型设计.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种Web使用模式挖掘模型设计

一种Web使用模式挖掘模型的设计   摘 要:Web使用模式挖掘是对用户浏览Web后在服务器日志上所留信息的数据挖掘。介绍了挖掘中常用技术及流程,并提出一种Web使用模式挖掘体系结构,介绍了系统的工作原理,对系统设计中的数据清洗和会话识别等关键技术作了详细讨论。   关键词:数据挖掘;Web数据挖掘;Web使用模式挖掘;Web日志   中图分类号:TP391文献标志码:A   文章编号:1001―3695(2007)03―0184―03   目前,Internet上的搜索引擎大致可分为三种类型:基于人工的搜索引擎,如Yahoo;基于软件Robot的搜索引擎,如AltaVista、Lycos、Excite等,以及元搜索引擎,如Bytesearch、MetaCrawler、Ixquick等。尽管目前的搜索引擎给人们搜寻信息资源带来了很大的便利,但其效果还远不能令人满意。数据挖掘技术经过多年的发展已趋于成熟,它可利用计算机从庞大的数据中智能地、主动地抽取有价值的数据模式,满足人们不同的需要。所以,把数据挖掘引入Web信息检索中,就成了当前一项十分重要的任务。??      1 Web使用模式挖掘??   Web使用模式挖掘是在用户访问Web后,对服务器上留下的访问路径进行挖掘,即对用户访问Web站点的存取方式进行挖掘。挖掘的目的是在海量的Web日志数据中自动、快速地发现用户的访问模式,如频繁访问路径、频繁访问页组、用户聚类等。??   1.1 Web使用模式挖掘常用技术??    Web使用模式挖掘中常用以下一些技术:??   (1)关联规则挖掘技术(Associate Mining Technology)。在Web数据挖掘中,关联规则挖掘就是要挖掘出用户在一个访问期间(Session)从服务器上访问的页面或文件之间的联系。最为著名的关联规则发现方法是R.Agrawal提出的Apriori算法,从事务数据库中挖掘出最大频繁访问项集,这个项集就是关联规则挖掘出来的用户访问模式。??   (2)序列模式挖掘技术(Sequence Mining Technology)。序列模式挖掘就是要挖掘出交易集之间的有时间序列的模式。在网站服务器日志里,用户的访问是以时间段为单位记录的,经过数据清洗和事务识别以后是一个间断的时间序列。这些序列所反映的用户行为有助于网站确认用户访问网站的兴趣所在。??   (3)分类与聚类技术(Classification Clustering) 。分类规则可以挖掘Web日志中某些共同的特性,利用该特性对新添到数据库里的数据项进行分类,根据访问模式得出访问某一服务器文件的用户特征。聚类分析用于将有相似特性的用户、数据项集合到一起。聚类的目标是将大量的数据项聚集成类,使得类与类之间的相似度尽量小,而类内的相似度尽量大。分类问题和聚类问题其根本分歧点在于:分类问题中的数据库数据项的分类属性值是已知的,而在聚类问题中,就需要通过使用一些算法来找出这个分类属性值。??   (4)路径分析技术(Route Analysis Technology)。在Web使用模式挖掘过程中,通过路径分析技术可以确定网站的频繁访问路径,可以对频繁访问的路径进行优化,并可以在频繁访问的路径上放置重要的信息,如导航信息等,以方便用户使用。通过路径分析技术得出的网站结构图在模式挖掘中非常有用。??   1.2 Web使用模式挖掘流程??   Web使用模式挖掘主要是存在于服务器日志中的用户访问信息,它将数据挖掘技术应用到Web中,形成了自己的挖掘方式。一般对Web使用模式挖掘流程的划分可分为三步和四步两种不同的看法。三步法认为应分为数据准备阶段、模式发现阶段和模式分析阶段。四步法是将流程分为源数据收集、数据预处理、模式挖掘和模式分析四个阶段。因为源数据收集和数据预处理可以归并为数据准备,所以本文采用三步划分法。其流程如图1所示。      2 WUMS体系结构   2.1 WUMS体系结构功能??   WUMS(Web Usage Mining System)是本文提出的一种Web使用模式挖掘系统工具。本系统根据功能的不同可划分为三个模块,即数据预处理模块、数据挖掘模块和可视化界面模块。其系统结构如图2所示。   2.2 系统功能实现??   本系统在设计上分为三大模块,各模块主要功能如下:??   (1)数据预处理模块。它对应Web使用模式挖掘的数据预处理部分。这部分模块包含的内容比较多,先利用一个数据采集器将日志中的数据收集回来,再经过一系列的清洗、入库、识别、集成等步骤得到可满足不同用户进行数据挖掘需要的集成数据。??   这个阶段是进行Web使用模式挖掘的第一个步骤。Web数据是海量的、异构的

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档