Web用户群模糊聚类挖掘.pdfVIP

下载本文档

6
0
约8.42千字
约 5页
2016-02-06 发布于河南
举报
版权申诉

Web用户群模糊聚类挖掘.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web用户群模糊聚类挖掘.pdf

第41卷第2期郑州大学学报(理学版) V01．41No．2 2009年6月 J．of Univ．(Nat．Sci．Ed．) Jun．2009 Zhengzhou Web用户群模糊聚类挖掘龚静1，薛德黔2 (1．铜仁学院计算机科学教育系贵州铜仁554300；2．湖州师范学院信息工程学院浙江湖州313000) 摘要：对Web日志进行有效聚类，可得到网站不同访问群和访问模式。研究了Web用户群模糊聚类关键技术．因为Web数据既有定量属性。又有定性属性，对Webmp群的聚类挖掘采用了模糊聚类方法，并设计了基于用户群的页面推荐函数．试验证明，Web用户群模糊聚类挖掘方法是有效的．关键词：Web日志；Web用户群；模糊聚类 311 中圈分类号：TP 0 引言随着用户使用互联网行为的多样化发展，要求网络必须是一种适应个性化需求的服务方式，网站必须根据访问者的兴趣、访问频度、访问时间等动态地调整页面结构，以满足个性化服务的需求[1。2]．要解决这个问题，需要了解访问者对网站的使用情况，把具有相似访问的用户划分为一组，使得同一个组内的浏览者具有较高的相似度，并从中提炼出用户感兴趣的事务、访问习惯等信息，进而为“优化站点结构、提供个性化服务、控制用户访问”等提供决策性支持．设计了一个Web用户群聚类挖掘系统，系统包括数据预处理、Web数据流挖掘和模式分析3个模块．因为Web数据既有定量属性，也有定性属性，Web用户群的聚类挖掘采用了模糊聚类的方法．主要对用户访问的各种事件(点击、浏览、下载等)进行聚类，发现用户对网站事务的使用兴趣及访问模式，识别网站中密集的被用户访问的事务或网页，设计了推荐函数，为网站设计者提供决策支持及为其他数据挖掘研究作数据准备． 1数据预处理 Web服务器日志清晰记录了网站访问者的使用记录，可作为数据挖掘的源数据．Web原始日志文件是简单的文本文件，大部分Web日志都有用户i夕地址、访问时间、所访问网页url等，也包含了一些不完整的或冗余的、错误的数据需要进行处理和对数据存储格式进行调整，生成合适的用户访问对话，以适合挖掘． 1．1基本定义定义1服务器Web日志中的一个记录可用页面视图L表示[3]，每一个页面视图L包括一个页面的定义[Ⅵ，Af]．Vi包含了页面地址祝、参考页面文件巧、访问时间tj 以及客户端向服务器通过表单发送的数据项及值对{d1，d2，…，dm}．Ai中包含了一些元数据，如客户端用户的ip地址、Agent的类型(主要包括浏览器及操作系统的类型)，还包括每一个用户向服务器请求的方式 (是post还是get)及请求的大小等属性．定义2 日志文件的记录经过预处理后，形成用户对网站的访问数据——web用户会话S，可定义为：收稿日期：2008—11．10 基金项目：贵州省自然科学基金资助项目，编号2005223；浙江省科技厅优先主题重点项目，编号2008C13068．男，教授·主要从事计算机网络、数据挖掘技术、智能控制研究，E-mail：dqxue@hutc．zj．ca．万方数据第2期龚静等：Web用户群模糊聚类挖掘 49 第k个页面，time。是页面url。被访问的时间，其中(硼。，ti)是访问网页时的用户行为及时间． 1．2算法实现 Stepl：数据清理．根据需要对日志进行处理，检查每一个日志记录L的url的扩展名，削除扩展名为g．f jpeg，map的日志记录． Step2：识别用户。根据一些启发规则(如i户地址相同，但代理不同，则认为不同的代理表示不同的用户)，将原日志文件L划分成相同的i户和Agent的用户访问序列集Hi． Step3：会话识别．对用户访问序列集Hi划分成用户的一次访问会话．可采用超时识别，如果用户2次限定值设为25．5min能取得很好的效果． 2 Web用户群模糊聚类挖掘 Web用户群聚类的主要思想是根据预定义的距离函数，把具有相似访问行为的用户划分成一组，使得在同一个组的访问者有较高的相似度．对网站用户进行聚类有2个角度：