日志挖掘数据预处理过程研究.PDFVIP

  • 6
  • 0
  • 约1.57万字
  • 约 4页
  • 2018-12-13 发布于天津
  • 举报
日志挖掘数据预处理过程研究.PDF

第12卷第2期 南 京 工 业 职 业技 术 学 院 学报 Vol.12,No.2 2012 6 Jun. 2012 年 月 Journal of Nanjing Institute of Industry Technology , Web 日志挖掘数据预处理过程研究 韩法旺 (南京森林警察学院 信息技术系,江苏 南京      210046) 摘  要:针对Web 页面的访问日志对研究用户行为模式的重要性及Web服务器上保存的大量访问日志的不完整性, 研究了Web 日志的数据预处理过程,得出了一个数据预处理一般过程的模型。 Web 关键词: 日志;数据预处理;用户识别;会话识别;路径补充 TP311          A          1671 4644 2012 02 0053 04 中图分类号: 文献标识码: 文章编号: ( ) 件进行预处理,将其转化为挖掘算法易于使用的、具 引言 [4] 有良好格式的数据 。 在 Web 日志数据挖掘中,最直接的数据来源是 表2  日志文件字段说明 Web服务器。用户在访问 Web 页面时,用户的访问 字段名称 字段说明 time GMT YY-MM-DD 行为信息被 Web 服务器 自动记录并保存在访问 日 时间( ) 日期,格式 date GMT HH MM SS 日期( ) 时间,格式 : : 1 [] 志、引用 日志和代理 日志中 。由于 Web服务器非 IP c-ip IP 访问客户的 地址( ) 客户端 地址 cs-username 常明确地记录了访问者的浏览行为,所以 Web服务 客户名称( ) 客户端发出请求的用户名 port 器的访问日志成为 Web 使用模式数据挖掘的重要 端 口号( ) 客户端发出请求的主机端 口 cs-method 2 访问方法(

文档评论(0)

1亿VIP精品文档

相关文档