基于Web日志浏览兴趣度分析技术研究.docVIP

下载本文档

2
0
约3.7千字
约 7页
2018-06-25 发布于福建
举报
版权申诉

基于Web日志浏览兴趣度分析技术研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Web日志浏览兴趣度分析技术研究

基于Web日志浏览兴趣度分析技术研究　　摘要：本论文主要针对Web挖掘领域中的Web日志挖掘领域，分析了已有的度量用户浏览兴趣方式的不足，提出了一种基于用户浏览行为度量用户浏览兴趣的方法，并通过线性回归预测方法预测了浏览兴趣度，建立了更准确的浏览访问路径树。实验表明，该方法是可行的并且具有较好的效果。　　Abstract： This paper is mainly in the field of Web Mining Web log mining areas.As a measure of the users browser， it has analyzed in the lack of means， on the basis of this， a measure based on user browsing interest is proposed in the way of the users browser， and through the linear regression forecasting methods to predict the degree of interest， and establish a more accurate view of the access path tree. The experiments show that the method is feasible and has achieved good results. 　　关键词： Web日志挖掘；浏览兴趣度；线性回归方程；访问路径树　　Key words： Web log mining；view degree of interest；linear regression equation；access path tree 　　中图分类号：TP393 文献标识码：A 文章编号：1006-4311（2013）33-0175-02 　　0 引言　　Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理，解决网络用户的个性化服务问题。目前人们已经在Web信息个性化服务的一些基本问题的研究工作上取得了一些成果，但如何将解决这些基本问题的方法有机地结合起来，以实现Web个性化服务，有必要继续研究。　　1 Web日志挖掘技术　　1.1 Web挖掘基本概念及应用 Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域，包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。通过Web挖掘，可以发现潜在客户，延长客户的驻留时间，改进站点设计等。　　1.2 Web日志的挖掘过程 Web日志挖掘过程一般是预处理阶段、挖掘算法、模式分析。数据预处理阶段主要包括数据清洗、用户识别、会话识别几个步骤。阶段流程如图1所示。　　2 基于用户浏览行为的挖掘实现　　在目前已有的数据挖掘的实现方式中，主要有用户端实现和服务器端实现两种方式。服务器端实现的方式主要是从服务器端的日志文件中获取???览信息。这种方式主要有以下缺点：①利用缓存进行的访问在服务器端不被记录；用户按后退键，利用本地缓存浏览以前访问过的页面占用户所有浏览行为的30%。②当用户通过代理进行浏览时只能通过用户注册的方式获取用户身份标志。③在代理中，只能找到用户浏览了哪些网页，不能准确地知道用户对其的浏览时长。④服务器负担重。如何将解决这些基本问题的方法有机地结合起来，以实现Web个性化服务，还较少提出过完整的解决方案，有必要继续在这一方面进行研究。　　3 利用线性回归预测方法预测页面浏览兴趣度　　3.1 Web日志页面浏览兴趣度分析研究的“微差” 如何有效地表达用户浏览兴趣是Web日志模式挖掘研究的方向之一。页面兴趣度的计算并不是一个新的课题，目前许多Web个性化推荐系统都涉及到页面兴趣度的计算。根据计算得到页面兴趣度，应用数据挖掘技术获得用户的兴趣模型，但这些计算方法都存在不足。　　基于以上分析，提出了利用线性回归预测方法预测页面浏览兴趣度。回归分析不仅能确定待估参数，还能对回归的有效性（显著性）、估计误差及待估参数的相关性做出定量描述。线性回归预测方法为：根据历史的样本数据，建立多元线性回归的预测模型，从而在不需要未来样本数据的情况下，预测未来时刻多元线性回归模型中的回归参数，以及主要的模型精度评估指标。　　3.2 兴趣度线性回归方程设计利用线性回归方程计算兴趣度关键是通过已有的兴趣度，访问次数，访问时间和接收字节数求出回归系数，其中访问次数，访问时间和接收字节数可通过Log得到。根据线性回归模型，假设访问次数、访问时间和接收字节数与页面浏览兴趣度线性相关，线性