基于Web日志挖掘的页面兴趣度量方法研究.docVIP

基于Web日志挖掘的页面兴趣度量方法研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Web日志挖掘的页面兴趣度量方法研究   摘要:本文主要针对电子商务网站的Web日志进行分析和挖掘,提出一种更好的度量页面兴趣度的方法,并在此基础上对页面实现模糊聚类,找到用户感兴趣的页面类,为用户提供个性化服务同时也为电子商务网站结构设计提供依据。   关键词:电子商务 页面兴趣度 模糊聚类      一、引言      互联网的发展催生了全新的商业模式―电子商务,电子商务改变了厂商和顾客的关系,也使得经济模式发生了变化,由于电子商务企业的竞争往往只在鼠标的一点之间,因此如何获取并维护更多的网络用户成为了各电子商务企业之间竞争的焦点。通过对电子商务网站的Web日志进行挖掘可以找到用户感兴趣的内容从而为用户提供个性化服务,同时根据对网站商品关联分析找出潜在的有关联的商品,从而进行“捆绑式”销售,还可以根据页面之间的关联关系为网站的结构调整提供依据。      二、Web日志挖掘      Web日志指的是用户在访问网站时在web服务在里留下的“脚印”,里面包含了用户的大量信息,如用户的ip地址、用户访问的页面、浏览的时间等。典型的Web服务器日志包含以下信息:   Date:用户请求页面的日期   Time:用户请求页面的时间   Client Ip Address:通过身份验证的访问服务器的用户名不包括匿名   Server Ip Address:服务器端的IP地址   Method:用户执行的方法,如 GET等   URI stem:被访问的资源   Bytes sent:接受数据的字节数   Bytes received:接受数据的字节数   Time taken:浏览消耗的时间(以毫秒为单位)   Referral page:用户浏览的前一个网址,当前网址是从该网址链接过来的   下面的某电子商务网站的Web日志片段:   2008-10-08 00:00:14 6 97 80 GET HTTP/1.1 200 0 3328 58974 250 0 /buy/results.asp akeyword=礼品工艺品bodytype=buy37nowpage=6 -   2008-10-08 00:00:14 37 97 80 GET HTTP/1.1 200 0 4140 76867 358 0 /userpic/tianlantianjpg - -   2008-10-08 00:00:15 6 97 80 GET HTTP/1.1 200 0 1781 58424 248 0 /buy/results.asp akeyword=个人保养bodytype=buy5nowpage=11 -   2008-10-08 00:00:15 6 97 80 GET HTTP/1.1 200 0 1812 61659 244 0 /buy/results.asp akeyword=肩章bodytype=buy24nowpage=3 -   我们看到原始的Web日志中包含了很多我们不需要的信息,预处理过的web日志才能进行下一步的数据挖掘。      三、页面兴趣度量的新方法      夏敏捷和张锦歌[1]构造了UserID-Url关联矩阵其中矩阵元素为是i用户在一段时间内访问第j个页面(Url)的次数;并且认为行向量即反映了用户类型,也勾勒出用户的个性化访问。而列向量则代表站点的结构,也蕴含有用户共同的访问模式。   褚红丹、焦素云和马威[2]定义了一个四元组   表示用户对页面i的兴趣,表示浏览该页面的次数,则兴趣度定义为:   I值(平均阅读时间)越大表示用户对该页面单位信息量阅读时间越长,则用户对该页面越感兴趣,相反,值越小表示当访问到该页时,用户平均阅读的时间短,则对此页面不感兴趣。   李珊、袁方[3]做了页面改进兴趣度的计算,用户兴趣度   :用户i在第j个页面上花费的时间;:用户i浏览第j个页面的频度;:用户i浏览第j个页面发送的字节数。   在页面兴趣度的度量最常用的方法就是用用点击次数反映用户的兴趣,这种方法简单且易于实现,同时web日志中还有其他因素也能反映用户的兴趣,所以应该综合考虑各种影响因素。后两篇论文中都提到了三种因素可以反映页面兴趣,下面我们对这些因素进行分析。   通过查询电子商务网站的日志分析,找出用户对页面的访问时间、服务器发送字节数和接收字节数的数据记录,因为从总取出75169条数据用spss软件做数据相关性分析,通过Pearson Correlation分析得出如下分析结果   计算结果现实用户在网页上的浏览时间和服务器发送字节数的Pearson相关系数为0.225,而和服

文档评论(0)

小马过河 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档