- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web用户群模糊聚类挖掘.pdf
第41卷第2期 郑州大学学报(理学版) V01.41No.2
2009年6月 J.of Univ.(Nat.Sci.Ed.) Jun.2009
Zhengzhou
Web用户群模糊聚类挖掘
龚 静1, 薛德黔2
(1.铜仁学院计算机科学教育系贵州铜仁554300;2.湖州师范学院信息工程学院浙江湖州313000)
摘要:对Web日志进行有效聚类,可得到网站不同访问群和访问模式。研究了Web用户群模糊聚类关键技术.因
为Web数据既有定量属性。又有定性属性,对Webmp群的聚类挖掘采用了模糊聚类方法,并设计了基于用户群
的页面推荐函数.试验证明,Web用户群模糊聚类挖掘方法是有效的.
关键词:Web日志;Web用户群;模糊聚类
311
中圈分类号:TP
0 引言
随着用户使用互联网行为的多样化发展,要求网络必须是一种适应个性化需求的服务方式,网站必须根
据访问者的兴趣、访问频度、访问时间等动态地调整页面结构,以满足个性化服务的需求[1。2].要解决这个问
题,需要了解访问者对网站的使用情况,把具有相似访问的用户划分为一组,使得同一个组内的浏览者具有
较高的相似度,并从中提炼出用户感兴趣的事务、访问习惯等信息,进而为“优化站点结构、提供个性化服务、
控制用户访问”等提供决策性支持.设计了一个Web用户群聚类挖掘系统,系统包括数据预处理、Web数据
流挖掘和模式分析3个模块.因为Web数据既有定量属性,也有定性属性,Web用户群的聚类挖掘采用了
模糊聚类的方法.主要对用户访问的各种事件(点击、浏览、下载等)进行聚类,发现用户对网站事务的使用兴
趣及访问模式,识别网站中密集的被用户访问的事务或网页,设计了推荐函数,为网站设计者提供决策支持
及为其他数据挖掘研究作数据准备.
1数据预处理
Web服务器日志清晰记录了网站访问者的使用记录,可作为数据挖掘的源数据.Web原始日志文件是
简单的文本文件,大部分Web日志都有用户i夕地址、访问时间、所访问网页url等,也包含了一些不完整的
或冗余的、错误的数据需要进行处理和对数据存储格式进行调整,生成合适的用户访问对话,以适合挖掘.
1.1基本定义
定义1服务器Web日志中的一个记录可用页面视图L表示[3],
每一个页面视图L包括一个页面的定义[Ⅵ,Af].Vi包含了页面地址祝、参考页面文件巧、访问时间tj
以及客户端向服务器通过表单发送的数据项及值对{d1,d2,…,dm}.Ai中包含了一些元数据,如客户端用
户的ip地址、Agent的类型(主要包括浏览器及操作系统的类型),还包括每一个用户向服务器请求的方式
(是post还是get)及请求的大小等属性.
定义2 日志文件的记录经过预处理后,形成用户对网站的访问数据——web用户会话S,可定义为:
收稿日期:2008—11.10
基金项目:贵州省自然科学基金资助项目,编号2005223;浙江省科技厅优先主题重点项目,编号2008C13068.
男,教授·主要从事计算机网络、数据挖掘技术、智能控制研究,E-mail:dqxue@hutc.zj.ca.
万方数据
第2期 龚 静等:Web用户群模糊聚类挖掘 49
第k个页面,time。是页面url。被访问的时间,其中(硼。,ti)是访问网页时的用户行为及时间.
1.2算法实现
Stepl:数据清理.根据需要对日志进行处理,检查每一个日志记录L的url的扩展名,削除扩展名为g.f
jpeg,map的日志记录.
Step2:识别用户。根据一些启发规则(如i户地址相同,但代理不同,则认为不同的代理表示不同的用
户),将原日志文件L划分成相同的i户和Agent的用户访问序列集Hi.
Step3:会话识别.对用户访问序列集Hi划分成用户的一次访问会话.可采用超时识别,如果用户2次
限定值设为25.5min能取得很好的效果.
2 Web用户群模糊聚类挖掘
Web用户群聚类的主要思想是根据预定义的距离函数,把具有相似访问行为的用户划分成一组,使得
在同一个组的访问者有较高的相似度.对网站用户进行聚类有2个角度:
您可能关注的文档
- sDR5封闭TRAIL减少内毒素引起小鼠肝细胞凋亡.pdf
- Semantic Web与基于语义的网络信息检索.pdf
- seo基础入门教程.doc
- SF-103油田注水缓蚀剂的合成及性能考察.pdf
- shRNA沉默PLCε基因表达对肾癌细胞增殖的抑制及作用机制.pdf
- SiCp增强2024铝基复合材料超塑性的研究.pdf
- Simulink基础入门教程.pdf
- SiO2@PPy纳米复合微粒的紫外吸收性质研究.pdf
- SiPESC.FEMS的单元计算模块设计模式.pdf
- siRNA 沉默 CD46基因表达对乳腺癌 MCF-7细胞增殖及转移能力的影响.pdf
- 《GB/T 29025.1-2025粒度分析 电阻法 第1部分:小孔管法》.pdf
- 《GB/T 37034.2-2025航空电子过程管理 防伪 第2部分:来源于非授权经销商电子元器件的管理》.pdf
- 中国国家标准 GB/T 37034.2-2025航空电子过程管理 防伪 第2部分:来源于非授权经销商电子元器件的管理.pdf
- GB/T 6113.102-2025无线电骚扰和抗扰度测量设备和测量方法规范 第1-2部分:无线电骚扰和抗扰度测量设备 传导骚扰测量的耦合装置.pdf
- GB/T 13609-2025天然气 气体取样.pdf
- 中国国家标准 GB/T 13609-2025天然气 气体取样.pdf
- 《GB/T 13609-2025天然气 气体取样》.pdf
- GB/T 19629-2025医用电气设备 X射线诊断影像中使用的电离室和(或)半导体探测器剂量计.pdf
- 《GB/T 19629-2025医用电气设备 X射线诊断影像中使用的电离室和(或)半导体探测器剂量计》.pdf
- 中国国家标准 GB/T 19629-2025医用电气设备 X射线诊断影像中使用的电离室和(或)半导体探测器剂量计.pdf
原创力文档


文档评论(0)