- 6
- 0
- 约1.57万字
- 约 4页
- 2018-12-13 发布于天津
- 举报
日志挖掘数据预处理过程研究.PDF
第12卷第2期 南 京 工 业 职 业技 术 学 院 学报 Vol.12,No.2
2012 6 Jun. 2012
年 月 Journal of Nanjing Institute of Industry Technology ,
Web 日志挖掘数据预处理过程研究
韩法旺
(南京森林警察学院 信息技术系,江苏 南京 210046)
摘 要:针对Web 页面的访问日志对研究用户行为模式的重要性及Web服务器上保存的大量访问日志的不完整性,
研究了Web 日志的数据预处理过程,得出了一个数据预处理一般过程的模型。
Web
关键词: 日志;数据预处理;用户识别;会话识别;路径补充
TP311 A 1671 4644 2012 02 0053 04
中图分类号: 文献标识码: 文章编号: ( )
件进行预处理,将其转化为挖掘算法易于使用的、具
引言 [4]
有良好格式的数据 。
在 Web 日志数据挖掘中,最直接的数据来源是 表2 日志文件字段说明
Web服务器。用户在访问 Web 页面时,用户的访问 字段名称 字段说明
time GMT YY-MM-DD
行为信息被 Web 服务器 自动记录并保存在访问 日 时间( ) 日期,格式
date GMT HH MM SS
日期( ) 时间,格式 : :
1
[]
志、引用 日志和代理 日志中 。由于 Web服务器非 IP c-ip IP
访问客户的 地址( ) 客户端 地址
cs-username
常明确地记录了访问者的浏览行为,所以 Web服务 客户名称( ) 客户端发出请求的用户名
port
器的访问日志成为 Web 使用模式数据挖掘的重要 端 口号( ) 客户端发出请求的主机端 口
cs-method
2 访问方法(
您可能关注的文档
最近下载
- 2025年房地产经纪人线上渠道的获客成本计算专题试卷及解析.pdf VIP
- Rexroth博世力士乐GFT 8000 40系列行星减速机行走齿轮产品样本资料.pdf
- 风险控制岗位招聘笔试题及答案(某大型国企)2025年.docx VIP
- 精品解析:北京市朝阳区北京中学2025年统编版小升初考试语文试卷(原卷版).docx VIP
- 通用学术英语综合教程(读写)郑群课后习题答案解析.pdf VIP
- _中国古代舞蹈史.ppt
- 人教版新版小学二年级下册语文生字表课课贴【可打印】.pdf VIP
- 2025年四川省公务员考试行测真题答案及解析(完美打印版) .pdf VIP
- (2026春新版)苏教版二年级数学下册全册教案.docx
- 正压式空气呼吸器.pptx VIP
原创力文档

文档评论(0)