Web日志挖掘中的数据预处理技术.pdfVIP

下载本文档

1
0
约1.16万字
约 5页
2015-07-23 发布于重庆
举报
版权申诉

Web日志挖掘中的数据预处理技术.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web日志挖掘中的数据预处理技术.pdf

第 25 卷第2 期何地大学学报(台然科学且) VoL25 No.2 2005 年 3 月 Journal of Hebei University (Natural Science Edition) 岛1ar.2005 Web 日志挖掘中的数据预处理技术侯亚丽，袁方 (河北大学数学与计算机学院，河北保定 071002) 摘要:用户访问网站，Web 日志中会记录下大量的用户访问信息，通过挖掘这些日志数据可以获得相关页面、相似用户群体和用户访问模式等信息，Web 日志挖掘对于优化网站结构、提供个性化服务和构建智能化网站具有重要作用-数据预处理是保证 Web 日志挖掘质量的重要基础，预处理主要包括数据清洗、用户识别、会话识别、路径补充和结果评价等工作概述了数据预处理技术，重点介绍了目前常用的会话划分算法和评价标准，并实现了一个数据预处理系统- 关键词 :Web 日志控掘;数据预处理;会话划分;会话评价中固分类号:TP 393 立献标识码:A 立章编号:1000 -1565(2005)02 一 0202 - 05 自从 WWW(World Wide Web)1 991 年问世以来，已经发展成为拥有数亿用户、数十亿页面的巨大分布式信息空间，而且其信息容量仍在飞速增长-但 Internet 是一个具有开放性、动态性和异构性的全球分布式网络，信息资源分布很分散，且没有统一的管理机构，这就导致了信息获取的困难-绝大部分用户并不了解信息网络结构，不清楚搜索的高昂代价，极容易在黑暗的网络中迷失方向，也极容易在跳跃式访问中烦乱不已和在等待信息中失去耐心[1] 解决这些问题的一个有效途径就是将数据挖掘技术和 Web 结合起来，进行 Web 挖掘山 .Web 挖掘可以定义为从与 WWW相关的资源和行为中抽取感兴趣的有用的模式和隐含信息.Web 挖掘可以分为 3 类: Web 内容挖掘(Web content mining) 、 Web 结构挖掘(Web structure mining) 和 Web 访问模式挖掘(Web usage mining)[lJ. 其中，Web 访问模式挖掘就是通过挖掘 Web 日志记录来发现用户访问 Web 页面的模式[3 -剖，通过挖掘 Web 日志中记录的用户访问行为，可以实现用户聚类、页面聚类和发现频繁访问路径，进而可以改善站点设计和为用户提供个性化服务- 目前，Web 日志挖掘技术发展迅速[6-8J ， Web 日志挖掘的一项重要的基础性工作就是数据预处理.数据预处理的主要目的就是将 Web 服务器中的日志数据转换成事务数据库，供挖掘阶段使用，主要包括数据清洗、用户识别、会话识别、路径补充和结果评价[9 -IOJ 1 数据预处理过程 Web 日志记录是以文本文件的形式存储的，而且其中存放了很多元用的信息，所以日志文件中的数据很难直接使用-由于服务器或参数设置不同，得到的 Web 日志文件中记录的信息也会有所不同，但都包含访问用户的基本信息.每条访问记录包括日期(date) 、时间(time) 、客户 IP 地址(c-ip) 、客户名(cs-username )、方法(cs-method) 、 URL 资源(cs-uri-stem) 、发送字节数(sc-bytes) 、接收宇节数(cs-bytes) 、花费时间(time-tak- en) 、用户代理(User-Agent) 、 cookie( C∞kie) 、参考页面(Referer) 等许多信息. 收稿日期:2004 - 10 - 28 作者简介:侯亚丽(1979 - ) ，女，河北石家庄人，河北大学在读硕士研究生- 第 2 期侯亚丽等:Web 日志挖掘中的数据预处理技术 203 . 1. 1 数据清洗数据清洗包括删除一些对于分析没有意义的数据，去掉sc-status 中的出错记录，及用户请求方法中不是 GET 的记录，网页上的图片在日志中也记录为单独的请求，这对于挖掘用户兴趣没有意义，通常去掉它们，除非该网站是关于图片的-还有 Web 机器人或系统产生的非人类请求记录，然后将数据导入关系数据库中，再进