聚类算法在Web日志挖掘中研究.docVIP

下载本文档

2
0
约3.34千字
约 9页
2018-09-18 发布于福建
举报
版权申诉

聚类算法在Web日志挖掘中研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类算法在Web日志挖掘中研究

聚类算法在Web日志挖掘中研究　　摘要：互联网上的信息是一个价值难以估量的宝库，如何利用这些丰富的互联网资源是我们需要解决的一个问题。文中通过数据挖掘手段，以服务器日志为例，论述了Web日志挖掘的概念和步骤，重点介绍了Web日志在聚类算法中的处理方法，最后结合实际对K-means算法的初始点的选取做了改进，同时引入权重降低了噪声和孤立点对聚类结果的影响。　　关键词：Web日志挖掘；聚类；K-means；权重　　中图分类号：TP311.5 文献标识码：A 文章编号：2095-1302（2015）07-00-02 　　0 引言　　一个大型网站通常有成千上万的网页，而用户可能只对其中某些网页中的内容感趣。对每个用户来说，他们需要的信息也各不相同；这就需要网站对网站的用户进行分类，给他们推送针对性强的服务。而通过数据挖掘的技术手段，对服务器日志对用户和用户的行为分类，为不同的用户推送他们关注的信息??解决这个问题的方法。　　1 Web日志挖掘概述　　1.1 Web挖掘的概念　　数据挖掘是指从海量的数据信息中，通过对数据的分析，提取出我们需要的信息[1]；Web数据挖掘是一项具有挑战性的课题，其目标是从Web的超链接结构、网页内容和使用日志中探寻有用的信息[2]。　　1.2 Web日志挖掘步骤　　Web日志挖掘是Web挖掘在Web日志中的使用，主要是通过对Web日志数据的预处理、分析后，从中获取感兴趣的信息的一种分析模式?[3]。服务器日志记录中记录了用户的各种网站浏览信息，通过分析这些数据，我们可以知道用户对什么感兴趣，网站可以有针对性的为用户推送相关的服务。典型的Web日志挖掘流程如图1所示。　　图1 Web日志挖掘流程图　　2 Web事务聚类探究　　2.1 Web日志聚类算法特点　　随着聚类算法的研究和应用，我们对一般数据挖掘的聚类算法有了一定的了解，一个聚类算法通常需要考虑算法是否具有可伸缩性，能否处理不同数据的能力、对于多位数据的处理能力、抗噪性能是否良好等问题[4]。　　但是对于Web日志挖掘的数据来说，聚类算法仅仅具有上述的特点还不能满足对日志数据处理的要求。首先对于一个大型网站的服务器日志来说，它的日志记录是庞大的，所以这就要求聚类算法可以高效地处理这些庞大的日志记录数据，但是一般的算法是不能满足这个要求的或者处理的效率不高。其次日志记录数据中，每个用户对一个网站的网页通常都是只对其部分页面感兴趣，因此建立的用户-页面矩阵是一个典型的稀疏矩阵，所以聚类算法处理稀疏矩阵的能力也是我们选择算法和改进算法需要考虑的一个重要因素。　　2.2 用户访问矩阵的建立　　经过对日志数据的预处理，将网站中的每一个页面URL进行了编码；通常一个设计合理的网站，页面URL之间的层次是比较清楚的。在对用户编码中，通常我们可以选取IP地址或者用户注册的登录名来区分不同的用户。　　处理好对URL编码和用户编码后，我们可根据用户浏览每个页面的平均访问时间来分析用户关注的信息。通常如果用户对网页的内容感兴趣，那么用户浏览网页的时间就越长。所以，我们可以通过下面的计算方法来计算平均访问时间：　　AT=PTT/PC 　　其中AT为页面平均访问时间；PTT为页面的总访问时间；PC：页面的点击次数。　　经过前期的处理，我们可以构建一个矩阵关联矩阵M，其行为Web站点URL、列为USER。矩阵的元素为某用户对某URL的平均访问时间，为连续型数值：　　（1）　　其中，n为用户的数量，m为页面的数量，Uij为第i个用户对第j个页面的平均访问时间。　　由于Uij 是不同的平均时间值，在进行比较的过程中，关注的是其所占的比重。所以需要将M矩阵进行归一化处理。其处理方式如下：　　行向量归一化得到矩阵M1 　　。（2）　　列向量归一化得到矩阵M2 　　。（3）　　2.3 相似度的定义　　本文相似度[5]是使用欧式距离[6]来计算2个向量间的距离，其计算公式如式（4）所示：　　（4）　　通过该公式可以计算出M1行向量间的距离，表示两两用户间的距离，结果为N1，M2列向量间的距离，表示两两页面间的距离，结果为N2。综合考虑这2个因素，通过加入权值做矩阵加法可以得到以下的相似度矩阵N：　　（5）　　（6）　　Pij表示第i个对象到第j个对象的相似性，值越大，表示2个对象越相近。　　2.4 k-means聚类算法的改进　　目前聚类的算法比较多，基于划分的较经典的有K-means算法[7]，其核心思想如下：　　（1）从N个数据元素中选出K个对象作为K个初始簇的在中心。　　（2）计算剩下的数据元素与K个初始簇的相似度，并将各个元素