- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web日志挖掘中的数据预处理技术.pdf
第 25 卷第2 期 何地大学学报(台然科学且) VoL25 No.2
2005 年 3 月 Journal of Hebei University (Natural Science Edition) 岛1ar.2005
Web 日志挖掘中的数据预处理技术
侯亚丽,袁方
(河北大学数学与计算机学院,河北保定 071002)
摘 要:用户访问网站,Web 日志中会记录下大量的用户访问信息,通过挖掘这些日志数据可以获得相
关页面、相似用户群体和用户访问模式等信息,Web 日志挖掘对于优化网站结构、提供个性化服务和构建智
能化网站具有重要作用-数据预处理是保证 Web 日志挖掘质量的重要基础,预处理主要包括数据清洗、用户
识别、会话识别、路径补充和结果评价等工作概述了数据预处理技术,重点介绍了目前常用的会话划分算法
和评价标准,并实现了一个数据预处理系统-
关键词 :Web 日志控掘;数据预处理;会话划分;会话评价
中固分类号:TP 393 立献标识码:A 立章编号:1000 -1565(2005)02 一 0202 - 05
自从 WWW(World Wide Web)1 991 年问世以来,已经发展成为拥有数亿用户、数十亿页面的巨大分布
式信息空间,而且其信息容量仍在飞速增长-但 Internet 是一个具有开放性、动态性和异构性的全球分布式
网络,信息资源分布很分散,且没有统一的管理机构,这就导致了信息获取的困难-绝大部分用户并不了解信
息网络结构,不清楚搜索的高昂代价,极容易在黑暗的网络中迷失方向,也极容易在跳跃式访问中烦乱
不已和在等待信息中失去耐心[1]
解决这些问题的一个有效途径就是将数据挖掘技术和 Web 结合起来,进行 Web 挖掘山 .Web 挖掘可以
定义为从与 WWW相关的资源和行为中抽取感兴趣的有用的模式和隐含信息.Web 挖掘可以分为 3 类:
Web 内容挖掘(Web content mining) 、 Web 结构挖掘(Web structure mining) 和 Web 访问模式挖掘(Web usage
mining)[lJ. 其中,Web 访问模式挖掘就是通过挖掘 Web 日志记录来发现用户访问 Web 页面的模式[3 -剖,通
过挖掘 Web 日志中记录的用户访问行为,可以实现用户聚类、页面聚类和发现频繁访问路径,进而可以改善
站点设计和为用户提供个性化服务-
目前,Web 日志挖掘技术发展迅速[6-8J , Web 日志挖掘的一项重要的基础性工作就是数据预处理.数据
预处理的主要目的就是将 Web 服务器中的日志数据转换成事务数据库,供挖掘阶段使用,主要包括数据清
洗、用户识别、会话识别、路径补充和结果评价[9 -IOJ
1 数据预处理过程
Web 日志记录是以文本文件的形式存储的,而且其中存放了很多元用的信息,所以日志文件中的数据
很难直接使用-由于服务器或参数设置不同,得到的 Web 日志文件中记录的信息也会有所不同,但都包含访
问用户的基本信息.每条访问记录包括日期(date) 、时间(time) 、客户 IP 地址(c-ip) 、客户名(cs-username )、
方法(cs-method) 、 URL 资源(cs-uri-stem) 、发送字节数(sc-bytes) 、接收宇节数(cs-bytes) 、花费时间(time-tak-
en) 、用户代理(User-Agent) 、 cookie( C∞kie) 、参考页面(Referer) 等许多信息.
收稿日期:2004 - 10 - 28
作者简介:侯亚丽(1979 - ) ,女,河北石家庄人,河北大学在读硕士研究生-
第 2 期 侯亚丽等:Web 日志挖掘中的数据预处理技术 203 .
1. 1 数据清洗
数据清洗包括删除一些对于分析没有意义的数据,去掉sc-status 中的出错记录,及用户请求方法中不是
GET 的记录,网页上的图片在日志中也记录为单独的请求,这对于挖掘用户兴趣没有意义,通常去掉它们,
除非该网站是关于图片的-还有 Web 机器人或系统产生的非人类请求记录,然后将数据导入关系数据库中,
再进
文档评论(0)