- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web使用信息挖掘中的行为发现研究
刘维娟肖云阎保平
(中国科学院计算机网络信息中心.北京l(IGg]80)
摘要web使用信息挖掘就是利用数据挖掘技术从网络数据中发现用户的
使用模式,以便于更好地了解网络用户的浏览行为和给用户提供更好的服务。
本文主要研究了Web使用信息挖掘中的数据预处理方法,特别是用户的行为
发现。根据所要挖掘的目标模式,可以将用户的行为分为五类:粒状访问行
为、线性序列行为、树形行为、非环形路由行为和环形路由行为。同时也分析
了各类用户行为的发现方法。同时可利用这些方法对中科院科学数据库门户
网站(http://www.csdb.cn)的日志文件进行分析,从中发现该网站访问用户的
使用模式。
关键词Web使用信息挖掘行为发现粒状访问行为线性序列行为树
形行丸非环形路由行为 环形路由行为
互联网的迅速发展使之已经成为人们生活中不可或缺的一部分,它是人们获取信息、学
术交流、信息发布以及商业活动的主要途径。中科院科学数据库中心负责中科院各研究单
位科学数据库系统的运行、管理和技术支撑,每日的网络访问量很大。据统计仅2006年4
人数达269366人次。面对如此庞大的访问信息如何从中了解用户的访问模式(用户是怎样
访问网站的)、用户的实际需求以及网站的设计是否符合用户的访问习惯等都是网站设计者
和管理者极其关心的问题,也是改进网站没计和更好地为用户提供网络服务的要求。Web
使用信息挖掘就是为解决这一问题而产生的,近年来也引起了更多研究人员的关注,成为当
前数据挖掘领域的研究热点。web使用信息挖掘就是利用数据挖掘技术对网站用户大量的
访问数据(即服务器端的日志文件)进行分析,获得其中隐藏的有价值的有关网站使用情况
和用户访问模式的过程。本文主要研究了Web使用信息挖掘中的数据预处理方法,特别是
用户行为分类及其发现方法。结构如下:第一部分介绍了web使用信息挖掘的整体流程并
说明了行为发现在其中的位置和作用,第二部分详细说明了用户行为分类及其发现方法,第
三部分是关于模式发现阶段工作的简要介绍,第四部分是总结和展望。
1.Web使用信息挖掘
从数据挖掘的角度来看,Web使用信息挖掘就是运用数据挖掘技术从网络数据中发现
使用模式,以利于更好的了解用户的浏览行为和更好的给用户提供网络服务…。Web使用
信息挖掘可以分为四个阶段:数据预处理,模式发现,模式分析和模式应用。Web使用信息
·283·
挖掘的整体流程如图1所示:
圈1 Web使用信J息挖掘流程图
数据预处理主要是对日志文件进行清洗转换使之能够满足数据挖掘算法的需要,是
Web使用信息挖掘过程中工作量最大最耗时的部分,预处理结果直接影响到挖掘算法产生
的规则与模式,直接决定着最终挖掘结果的有效性和可用性。
模式发现就是使用数据挖掘算法对预处理后的数据进行分析,发现其中隐藏的内在规律
和模式(如关联规则、序列模式、聚类信息等)。模式发现是Web使用信息挖掘任务的核心。
模式分析是对模式发现阶段所产生的大量模式进行分析,按照一定的度量标准从中选
择感兴趣的或者新颖的规律模式。
模式应用是对模式分析结果的应用,主要指利用挖掘出的模式对网站结构进行调整改
进,对网站服务器的性能进行完善(设计合理的web缓存、负载均衡等),为用户提供个性化
服务,为管理者提供决策支持等,模式应用是web使用信息挖掘工作的最终目的。
。网络环境中由于代理服务器、防火墙的存在,通过同一代理服务器访问网站的不同用户
在服务器端日志文件中相应的Ⅲ是相同的,即日志文件同一P可能表示多个用户,这就导
致了日志数据的模糊性。同时代理服务器和客户端浏览器大多采用了缓存机制,这就使得
用户对缓存页面的访问在服务器端日志文件中没有相应的记录,导致了日志数据的不完整
性“】。日志数据的不完整性和模糊性决定了数据预处理是WeB使用信息挖掘过程中不可
或缺的部分。下面简要介绍Web使用信息挖掘中数据预处理阶段的各项任务及用户行为
发现在其中的所处的位置及其作用。
数据预处理阶段的各项任务有:
◇数据清洗
文档评论(0)