- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于集合Web用户会话实时聚类算法
一种基于集合的Web用户会话实时聚类算法
摘要: 随着互联网的普及和电子商务、个性化推荐技术等的发展,Web使用挖掘成为了数据挖掘的新的研究热点。针对Web用户会话聚类,提出了一种基于序列对集合的用户会话实时聚类方法。对聚类算法进行了分析与比较,给出了时空复杂度,实验比较了BOM算法与 BOC算法的效率,并验证了BOC算法的有效性与时效性。
Abstract: With the popularity of the internet and the development of the e-commerce and personalized recommendation technology,web usage mining becomes the new study hot of data mining. For web user session clustering, a user session realtime clustering method that based on sequence-pair set is putted forward. The clustering algorithm is analyzed and compared,the space-time complexity is given. By comparing to the efficiency of the BOM algorithm and BOC algorithm, the effectiveness and timeliness of the BOC algorithm are tested.
关键词: web;实时聚类;集合相似度;簇相似度
Key words: web;realtime clustering;set similarity;cluster similarity
中图分类号:TP3 文献标识码:A文章编号:1006-4311(2010)13-0182-02
1BOM聚类方法
为了适应用户短期浏览的变化,文献[1]提出了一种用户会话实时聚类算法,这种算法把用户浏览的一个会话用矩阵的形式来表示,因此它是基于矩阵的,称这种实时聚类算法为BOM(Base On Matrix)聚类算法。
用户浏览页面,不断形成新的会话,BOM聚类过程实际上就是在原有的已划分的簇的基础上,把新的会话分配到某一个簇当中的过程,当原有的簇不满足相似度阈值的时候,就新建立一个簇,把新的会话加入到新的簇当中。聚类过程中会话数为n,聚类要求最大的会话数为N,则聚类方法的具体过程如下:
①建立第一个簇,把第一个会话加入到第一个簇当中,n=1。
②新来一个会话,n=n+1,并比较新的会话与各个簇之间的距离。
③如果新会话与各个簇之间的距离小于给定阈值T,则把新的会话加入到距离最小的簇Cmin当中,重新计算簇Cmin的聚类中心。
④如果新的会话与各个簇之间的距离都大于给定阈值T,则新建立一个簇,把新的会话加入到新的簇当中。
⑤至此完成了一个新的会话的聚类过程,如果nN则返回步骤二,否则聚类过程完成,输出结果。
假设页面基数为m,会话集包含n个簇,每个簇中有k个元素。BOM方法第一步计算簇中心,每个簇中有k个m*m矩阵相加,有n个簇,时间复杂度是O(m2kn),第二步比较新会话与各个簇中心的距离,时间复杂度是O(m2n),BOM方法总的时间复杂度是O(m2kn)。由此可见BOM方法的时间复杂度较高,主要是矩阵中的元素过多,而且多数是零元素。矩阵中元素的个数受页面基数的影响比较大,为了克服BOM聚类方法的缺点,本文提出了一种基于集合的实时聚类方法。
2BOC聚类方法
BOM聚类方法是基于矩阵的,把用户会话浏览序列用矩阵表示,但是它受网站页面基数的影响很大,而且矩阵中零元素过多,算法性能受到影响。把用户会话浏览序列用集合来表示,则能有效克服它的不足。把基于集合的聚类算法称为BOC(Base On Collection)聚类算法。
2.1 用户浏览会话集合表示
网站的页面基数为n,页面分别为p1、p2、p3、…、pn 。同样,把用户浏览序列中相邻的两个页面称为序列对,一个序列对就是用户会话集合表示形式中的一个元素。对于页面基数为n的网站,可以存在个序列对。
2.2 集合相似度以及集合与簇相似度定义
定义1.1设集合v1和v2,|v1|、|v2|分别表示集合v1和v2中元素的个数,集合v表示集合v1和集合v2的交集,即v=v1∩v2,|v|表示集合v中的元素的个数。则集合v2相对于集合v1的相似度为sim(v)==。
定义1.2设一个
文档评论(0)