Web用户群模糊聚类挖掘.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web用户群模糊聚类挖掘.pdf

第41卷第2期 郑州大学学报(理学版) V01.41No.2 2009年6月 J.of Univ.(Nat.Sci.Ed.) Jun.2009 Zhengzhou Web用户群模糊聚类挖掘 龚 静1, 薛德黔2 (1.铜仁学院计算机科学教育系贵州铜仁554300;2.湖州师范学院信息工程学院浙江湖州313000) 摘要:对Web日志进行有效聚类,可得到网站不同访问群和访问模式。研究了Web用户群模糊聚类关键技术.因 为Web数据既有定量属性。又有定性属性,对Webmp群的聚类挖掘采用了模糊聚类方法,并设计了基于用户群 的页面推荐函数.试验证明,Web用户群模糊聚类挖掘方法是有效的. 关键词:Web日志;Web用户群;模糊聚类 311 中圈分类号:TP 0 引言 随着用户使用互联网行为的多样化发展,要求网络必须是一种适应个性化需求的服务方式,网站必须根 据访问者的兴趣、访问频度、访问时间等动态地调整页面结构,以满足个性化服务的需求[1。2].要解决这个问 题,需要了解访问者对网站的使用情况,把具有相似访问的用户划分为一组,使得同一个组内的浏览者具有 较高的相似度,并从中提炼出用户感兴趣的事务、访问习惯等信息,进而为“优化站点结构、提供个性化服务、 控制用户访问”等提供决策性支持.设计了一个Web用户群聚类挖掘系统,系统包括数据预处理、Web数据 流挖掘和模式分析3个模块.因为Web数据既有定量属性,也有定性属性,Web用户群的聚类挖掘采用了 模糊聚类的方法.主要对用户访问的各种事件(点击、浏览、下载等)进行聚类,发现用户对网站事务的使用兴 趣及访问模式,识别网站中密集的被用户访问的事务或网页,设计了推荐函数,为网站设计者提供决策支持 及为其他数据挖掘研究作数据准备. 1数据预处理 Web服务器日志清晰记录了网站访问者的使用记录,可作为数据挖掘的源数据.Web原始日志文件是 简单的文本文件,大部分Web日志都有用户i夕地址、访问时间、所访问网页url等,也包含了一些不完整的 或冗余的、错误的数据需要进行处理和对数据存储格式进行调整,生成合适的用户访问对话,以适合挖掘. 1.1基本定义 定义1服务器Web日志中的一个记录可用页面视图L表示[3], 每一个页面视图L包括一个页面的定义[Ⅵ,Af].Vi包含了页面地址祝、参考页面文件巧、访问时间tj 以及客户端向服务器通过表单发送的数据项及值对{d1,d2,…,dm}.Ai中包含了一些元数据,如客户端用 户的ip地址、Agent的类型(主要包括浏览器及操作系统的类型),还包括每一个用户向服务器请求的方式 (是post还是get)及请求的大小等属性. 定义2 日志文件的记录经过预处理后,形成用户对网站的访问数据——web用户会话S,可定义为: 收稿日期:2008—11.10 基金项目:贵州省自然科学基金资助项目,编号2005223;浙江省科技厅优先主题重点项目,编号2008C13068. 男,教授·主要从事计算机网络、数据挖掘技术、智能控制研究,E-mail:dqxue@hutc.zj.ca. 万方数据 第2期 龚 静等:Web用户群模糊聚类挖掘 49 第k个页面,time。是页面url。被访问的时间,其中(硼。,ti)是访问网页时的用户行为及时间. 1.2算法实现 Stepl:数据清理.根据需要对日志进行处理,检查每一个日志记录L的url的扩展名,削除扩展名为g.f jpeg,map的日志记录. Step2:识别用户。根据一些启发规则(如i户地址相同,但代理不同,则认为不同的代理表示不同的用 户),将原日志文件L划分成相同的i户和Agent的用户访问序列集Hi. Step3:会话识别.对用户访问序列集Hi划分成用户的一次访问会话.可采用超时识别,如果用户2次 限定值设为25.5min能取得很好的效果. 2 Web用户群模糊聚类挖掘 Web用户群聚类的主要思想是根据预定义的距离函数,把具有相似访问行为的用户划分成一组,使得 在同一个组的访问者有较高的相似度.对网站用户进行聚类有2个角度:

您可能关注的文档

文档评论(0)

ddwg + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档