基于聚类的Web日志挖掘.docVIP

下载本文档

13
0
约2.65千字
约 5页
2016-09-24 发布于北京
举报
版权申诉

基于聚类的Web日志挖掘.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于聚类的Web日志挖掘.doc

基于聚类的Web日志挖掘　　[摘要]本文采用K-均值聚类算法对Web日志进行挖掘，并将Web日志挖掘的知识用于网页推荐。在网页推荐环节，我们采用了打分函数，这个函数充分考虑了各种因素对用户访问的影响。　　[关键词]K- means算法 Web日志挖掘网页推荐打分函数　　中图分类号：TM121.1.3 文献标识码：B 文章编号：1009-914X（2016）01-0067-02 　　1.引言　　随着全球经济一体化的发展，市场营销策略已愈来愈强调面向市场的方式，企业想要在竞争中取得优势地位，重要的是按照不同用户群体的特定需要，提供全面的服务，精确满足各个消费群体的不同需求。Web聚类挖掘正是因为能够实现这一目标而成为当前发展电子商务的一个重要课题。　　2.Web日志上的聚类挖掘　　2.1Web日志聚类的分类　　Web日志上的聚类有两种：用户聚类和页面聚类。用户聚类是对用户的会话进行分析。通过聚类分析的方法，将访问模式相同的用户聚在一起，将访问模式不同的用户区分开。页面聚类是对被用户访问的页面情况进行分析，根据用户访问内容，发现被相同用户访问的页面，并将其归为一组。　　2.2会话以及会话矩阵的表示　　这里采用向量的方式来表示会话，为了表示一个会话向量需要对网站中的所有网页进行编码，从而将网页用对应的编码来代替。设会话向量V=（U1，U2，U3……Un），其中Ui的值是对编号为i的网页进行访问的次数，如果编号为i的网页没有被浏览，Ui=0。有了会话向量，就可以将日志中所有的会话用向量的方式表示出来，然后就可以得到会话矩阵。　　2.3会话的相似度量方法　　2.3.1会话间的相似度　　这里用夹角余弦法来定义两个会话i，j之间的相似度S（i，j），设会话i的会话Vi=（mi1，mi2， mi3……min），会话j的会话向量为Vj=（mj1，mj2， mj3……mjn），那么　　设相似矩阵为R=（rij）s*s，rij用来代替会话i和j的相似度：　　2.3.2相似度矩阵　　相似度矩阵：对于矩阵R，，其中rij=S（i，j），即会话i和j的相似度。矩阵R为会话集合的相似度矩阵。　　3.Web日志上的聚类分析算法　　3.1K-均值聚类算法　　我们选择聚类算法中的K-均值聚类算法（k-means algorithm）来进行Web上的用户聚类和网页聚类，K-均值聚类算法是无监督分类中的一种基本方法，其也称为C-均值算法，其基本思想是：通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。该算法必须在开始输入一个K值，作为该算法在数据集上分割并计算后输出聚类的数量。　　算法的开始是随机的从聚类对象集合中取K个对象，最为最初的聚类中心，然后算法开始循环迭代，对每一个输入的对象向量计算它与K个聚类中心的距离，找到距离对象最近的聚类，并将其归为该聚类。重新计算聚类的中心，然后依次迭代，知道聚类的成员不再变化，或者用来衡量聚类质量的目标函数不存在明显的变化，即变化小于一个可以认可的值。　　4. Web日志聚类结果的应用　　Web日志聚类结果最直接的用途就是网页推荐。网页推荐的过程，首先要提取用户的访问模式，然后对网站中的各个网页进行打分，按照得分的高低来排序，最后将得分较高的若干网页推荐出去。网页推荐最重要的一个环节就是对打分函数的设计，即依据什么样的函数来对网页进行打分。在定义打分函数之前我们先定义以下几个概念：　　会话片段向量：对于一个当前还结束的会话，构造一个向量ui=（u1，u2， u3……un），其中n是经过了预处理后网页的总数目，ui的值是该会话对编号为i的网页的访问次数，我们称向量u为一个会话片段向量。　　网页访问向量：p=（p1，p2， p3……pn），其中n是经过了预处理后会话的总数目。pi是编号为i的会话对网页p的访问次数。　　聚类支持度函数：S_cluster（u，p）=Projp（maxc（u，ci）），其中ci是对会话的聚类分析后聚类中编号为i的聚类簇的中心。maxc（u，ci）函数的值是同会话片段向量u相似度最大的中心向量。　　聚类支持函数是从用户聚类的角度来考虑预期的推荐网页，即用当前的会话片段向量距离最近的聚类中心的属性来考虑对网页p的支持程度。　　点击率：　　其中Ci是经过预处理后，用户对编号为i的网页的总访问次数。Cp是经过预处理后，用户对网页p的总访问次数。点击率函数参照了网页p原来被访问的数据，从概率的角度来考虑网页p被再次访问的可能性。　　打分函数： f（p，pl，u）=S_cluster（u，p）×S_click（p）×sim（p，pl）　　其中pl是会话u最近访问的页面。