基于Web日志的自适应站点优化研究与应用.docVIP

下载本文档

0
0
约5.73千字
约 8页
2018-03-16 发布于北京
举报
版权申诉

基于Web日志的自适应站点优化研究与应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Web日志的自适应站点优化研究与应用　　摘要:论文主要从理论上分析了一种自适应网站性能优化算法,该算法首先以Web站点的URL为行、以用户的UserID为列,建立URL_UserID关联矩阵,元素值为用户的访问次数;接着对行向量进行分析获得频繁闭相关页面集;最后,对频繁闭相关页面集进一步处理发现频繁访问路径。Web站点可根据频繁路径自动改进链接结构,提高Web站点对所有用户的整体服务性能,提高客户访问的效率。　　关键词:频繁访问路径;URL_UserID 关联矩阵;闭相关页面集;自适应站点　　中图分类号:TP393文献标识码:A文章编号:1009-3044(2009)14-3671-02 　　An Adaptive Optimization Method Based on the Web Logs 　　MAI Quan-bang, FU Ren-yi 　　(Shunde Polytechnic, Shunde 528333, China) 　　Abstract: A theoretical analysis of adaptive Web site performance optimization algorithm for the first to the Web site URL for the trip to the UserID users listed, the establishment of URL_UserID association matrix, the elements of value for the user visits; proceeded to Row vector analysis of the relevant pages were frequently closed-end, the frequent closure of the relevant pages set processed further found that frequent access path. Web site under frequent automatic path to improve link structure, improve the Web site for all users of the overall service performance, enhance the efficiency of customer visits. 　　Key wrods: Frequent access path; URL_UserID association matrix; closed-related pages; adaptive site 　　1 引言　　Internet技术和智能电子商务的普及,人们希望能够快速准确的从Web页中寻找需求的信息,各网站设计者们也希望能够根据用户的偏好确定网站内容的设置,提高其市场竞争力。自适应Web网站能够更好地理解用户,发现用户隐藏的兴趣和群体用户的行为规律,从而制定相应的信息过滤策略,按照用户的个性化信息进行主动式的推荐服务。　　自适应Web网站(Adaptive Web Site)[1-2]是指Web服务器通过学习用户的访问模式,自动地改进Web站点信息的组织与显示。Chen等人[3]首先将数据挖掘技术应用于Web服务器日志文件,以期发现用户浏览模式。他们提出了最大前向引用序列MFR的概念,并用它将用户会话分割成一系列的事务,然后采用与关联规则相似的方法挖掘频繁浏览路径。　　2 Web站点的表示　　2.1 用户浏览行为描述　　Web服务器日志包括访问日志、引用日志和代理日志。通过对这些日志进行恰当的预处理后,可以L=的形式来表示,分别代表客户IP地址、用户ID、用户请求的URL及相应的浏览时间。现将用户的浏览行为T定义为一个三元组: 　　T= 　　URLt={(L1t.URL,L1t.HITS),(L2t.URL,L2t.HITS),…,(Lmt.URL,Lmt.HITS)} 　　其中,Lt∈L,Lt.IP=IPt,Lt.UID=UIDt,t≥1,HITS表示到目前为止用户UIDt浏览页面Lt.URL的次数。　　2.2 Web站点拓扑结构　　一个Web站点的拓扑结构就是一个有向图,而用户在一段时间内的访问模式则为其子图。具有相似访问子图的客户就是需求相似的用户,即用户群体聚类。用户访问频繁的有向边,就是频繁路径。假设Web站点G就是一个具有如下形式的有向图: 　　G=(N,Np,E,Ep) 　　其中,N为结点集:NP={Node∈N,{(UserID,HITS)}n},n≥1,记录客户UserID及其访