网络日志中用户兴趣的挖掘及其利用.pdf

下载文档 降价啦

2
0
约14.49万字
约 104页
2015-10-12 发布于安徽
举报
版权申诉
保障服务

网络日志中用户兴趣的挖掘及其利用.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

网络H忐中用户兴趣的挖掘及利用：摘要摘要网络日志挖掘旨在通过对网络同志进行有效的数据挖掘，发掘隐藏在日志数据背后的Web用户访问模式。这个目标基于这样的假设：网络同志中确实蕴含 _『用户访问Web的某些规律性特性，这些特性反映在某些模式中，这些模式可以被挖掘出来并加以利用。绝大多数的网络日志挖掘研究都基于这一‘假设发掘出 r各种有用的Web用户访问模式。但是网络f_I志中是否确实蕴含了用户访问Web 的规律性特性?如果有，这些特性能否用语言描述出来?如何利用这些特性?论文的核心工作就是围绕这些问题，使用统计分析、聚类和依赖关系的建模等挖掘技术，针对Web访问特性、Web信息检索、Web站点辅助设计和系统优化等领域作了较深入的研究。论文的工作与贡献主要有四个方向： (1)网络日志中是否确实蕴含了用户访问Web的规律性特性?如果有，这些特性能否用语言描述出来?论文针对这些问题对实际网络曰志进行了实证性的规模统计分析。研究了网络日志规模与用户数、Web页面数以及单位用户访问的Web页面数的关系，并研究了用户访问Web的动机。得出了一些有用的结论。这些结论为网络日志挖掘提供了一定的研究根据和基础。 (2)基于(1)所得结论，论文提出了基于Web用户行为的相关页面检索模型 BasedIR WUBIRM(Web Model)和搜索引擎系统SISI(SimilarInterests， Usage accesson Similar Intemet)原型。目前的信息检索技术主要是基于文本分析和链接分析。文中认为页面是否相关的最终判定者应该是用户。为了尽可能地模拟人对页面相关性的判断，论文从真正的网页使用者——网络用户的角度探讨了信息检索技术。文中试图利用网络日志中蕴含的用户在页面相关判定上的潜在意识来挖掘相关页面。这对于改进传统的信息检索技术，从海量信息中快速而准确的检索相关页面具有不可替代的重要意义。 f3)基于(1)所得结论，以及用户空间(用户访问频率矩阵)的变换，论文提出了用户兴趣空间的概念，并提出两种用户兴趣空间的构造方法：一是利用因子分析理论；二是利用用户空问中用户聚类和Web文档聚类在权重之间的对偶关系。与用户空间相比较，用户兴趣空间突出了用户的共同兴趣，是一个正交空间。分别在用户空间和两种用户兴趣空间中作Web页面聚类，实验结果表明，用户兴趣空间的Web页面聚类效果优于用户空间的聚类，且从用户空间向用户兴趣空间的转换达到了数据压缩的效果，其中在利用因子分析理论构造的用户兴趣空间中的Web页面聚类效果最好。 (4)论文分析了隐藏在Web缓存行为背后的Web用户行为，认为缓存的替换策略应该充分考虑用户访问Web的特性。论文提出了Web缓存替换策略 LRUl。SULRU充分利用了用户访问Web的特性，并具 SULRU(Size＆User 有一定的自适应能力，提高了缓存的智能特性。模拟实验结果表明SULRU 取得了较好的页面命中率和页面字节命中率。SULRU实现起来也tE较容易，是一个较好的缓存替换策略。关键词：网络同志挖掘，用户兴趣，信息检索，因子分析，Web缓存替换策略刚络Lj志中用户兴趣的挖掘及利用：Abstract and Users’Interestsin Minining Web Utilizing Logs Guo Software and Yah(ComputerTheory) Bai