基于URL相似度的会话识别方法①.PDF

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于URL相似度的会话识别方法①.PDF

2014 年 第 23 卷 第 12 期 计 算 机 系 统 应 用 基于URL 相似度的会话识别方法① 周松松, 马建红 (河北工业大学 计算机科学与软件学院, 天津 300401) 摘 要: 随着互联网的快速发展, Web 日志的用户行为分析已经成为互联网技术领域的研究热点之一. 会话识别 是 Web 日志用户行为分析的关键步骤, 精准的会话识别是有效进行用户行为分析的基础. 本文在 IIS Web 日志分 析的基础上, 提出了一种基于 URL 相似度的会话识别方法. 实验结果表明, 此方法可以有效的识别出用户的真 实会话. 关键词: 数据预处理; 用户识别; 会话识别; 编辑距离; 最长公共子序列 Session Identification Method Based on Similarity URL ZHOU Song-Song, MA Jian-Hong (School of Computer Science and Software, Hebei University of Technology, Tianjin 300401, China) Abstract: With the rapid development of Internet, Web log user behavior analysis has become one of research hotspots in the field of Internet technology. Session identification is the key step in the Web log user behavior analysis. Accurate session identification is the foundation of effective user behavior analysis. IIS Web log analysis is presented in this paper on the basis of a session identification method based on known URL. The experimental results show that this method can effectively identify the user’s real conversation. Key words: data preprocessing; user identification; session identification; levenshtein distance; longest common subsequence 随着互联网的广泛应用, 电子商务、网络教育越 的目的是将用户的所有访问序列分成多个单独的用户 来越普及, 个性化服务的概念也应运而生. 个性化服 一次访问序列, 会话的真实性和精准度是衡量预处理 务是指通过分析用户的浏览行为和浏览内容, 对用户 质量的重要指标, 因此, 会话识别是 Web 日志挖掘的 [2] 兴趣进行动态感知与预测, 主要涉及 Web 日志挖掘 重要处理步骤之一 . [1] 和文本挖掘技术 . 国外学者较早地对 Web 日志挖掘中的预处理技术 Web 日志挖掘已成为数据挖掘技术中越来越受 进行了研究, 取得了不错的研究成果, 同时国内也有 重视的领域之一, 挖掘中的预处理技术也变得非常重 大量学者对 Web 日志预处理的过程展开了研究. 要. 据统计, 三分之二的数据挖掘分析家们认为在一 李燕等[1]采用基于引用的会话识别算法来进行 个完整的数据挖掘过程中,

文档评论(0)

153****2993 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档