网络日志中用户兴趣的挖掘及其利用.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络H忐中用户兴趣的挖掘及利用:摘要 摘要 网络日志挖掘旨在通过对网络同志进行有效的数据挖掘,发掘隐藏在日志数 据背后的Web用户访问模式。这个目标基于这样的假设:网络同志中确实蕴含 _『用户访问Web的某些规律性特性,这些特性反映在某些模式中,这些模式可 以被挖掘出来并加以利用。绝大多数的网络日志挖掘研究都基于这一‘假设发掘出 r各种有用的Web用户访问模式。但是网络f_I志中是否确实蕴含了用户访问Web 的规律性特性?如果有,这些特性能否用语言描述出来?如何利用这些特性?论 文的核心工作就是围绕这些问题,使用统计分析、聚类和依赖关系的建模等挖掘 技术,针对Web访问特性、Web信息检索、Web站点辅助设计和系统优化等领 域作了较深入的研究。 论文的工作与贡献主要有四个方向: (1)网络日志中是否确实蕴含了用户访问Web的规律性特性?如果有,这些特 性能否用语言描述出来?论文针对这些问题对实际网络曰志进行了实证性 的规模统计分析。研究了网络日志规模与用户数、Web页面数以及单位用户 访问的Web页面数的关系,并研究了用户访问Web的动机。得出了一些有 用的结论。这些结论为网络日志挖掘提供了一定的研究根据和基础。 (2)基于(1)所得结论,论文提出了基于Web用户行为的相关页面检索模型 BasedIR WUBIRM(Web Model)和搜索引擎系统SISI(SimilarInterests, Usage accesson Similar Intemet)原型。目前的信息检索技术主要是基于文本分析 和链接分析。文中认为页面是否相关的最终判定者应该是用户。为了尽可能 地模拟人对页面相关性的判断,论文从真正的网页使用者——网络用户的角 度探讨了信息检索技术。文中试图利用网络日志中蕴含的用户在页面相关判 定上的潜在意识来挖掘相关页面。这对于改进传统的信息检索技术,从海量 信息中快速而准确的检索相关页面具有不可替代的重要意义。 f3)基于(1)所得结论,以及用户空间(用户访问频率矩阵)的变换,论文提出了 用户兴趣空间的概念,并提出两种用户兴趣空间的构造方法:一是利用因子 分析理论;二是利用用户空问中用户聚类和Web文档聚类在权重之间的对 偶关系。与用户空间相比较,用户兴趣空间突出了用户的共同兴趣,是一个 正交空间。分别在用户空间和两种用户兴趣空间中作Web页面聚类,实验 结果表明,用户兴趣空间的Web页面聚类效果优于用户空间的聚类,且从 用户空间向用户兴趣空间的转换达到了数据压缩的效果,其中在利用因子分 析理论构造的用户兴趣空间中的Web页面聚类效果最好。 (4)论文分析了隐藏在Web缓存行为背后的Web用户行为,认为缓存的替换策 略应该充分考虑用户访问Web的特性。论文提出了Web缓存替换策略 LRUl。SULRU充分利用了用户访问Web的特性,并具 SULRU(Size&User 有一定的自适应能力,提高了缓存的智能特性。模拟实验结果表明SULRU 取得了较好的页面命中率和页面字节命中率。SULRU实现起来也tE较容易, 是一个较好的缓存替换策略。 关键词:网络同志挖掘,用户兴趣,信息检索,因子分析,Web缓存替换策 略 刚络Lj志中用户兴趣的挖掘及利用:Abstract and Users’Interestsin Minining Web Utilizing Logs Guo Software and Yah(ComputerTheory) Bai

文档评论(0)

liybai + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档