基于Web日志的数据挖掘技术在Web机器人识别中的研究.pdfVIP

基于Web日志的数据挖掘技术在Web机器人识别中的研究.pdf

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Web日志的数据挖掘技术在Web机器人识别中的研究.pdf

科学技术 基于Web日志的数据挖掘技术在Web机器人识别中的研究 王利源 (沈阳理工大学,辽宁 沈阳 l10000) 摘 要:数据挖掘是从大量数据中发现人们未知的、感兴趣的、隐藏的知识。数据挖掘web服务器 日志记录具有 良好的结构,非常有利于数据挖 掘。由TWeb~务器 日志记录具有 良好的结构,因此,作为web使用挖掘的一个分支,Web日志数据数据挖掘,具有独特的理论和实践意义。本文利用 决策树分类法,对web服务器上保存的web日志进行数据挖掘,通过对 日志中所保存的信息进行分析,总结出正常用户和Web机器人访问网页的模式特 点。 关键词:数据挖掘;Web日志挖掘;决策树 0.引言 的归纳推理算法之一,非常适合对Web日志的数据挖掘。 Web]~务器通常保存 了对Web页面的一次访 问的 目志项 (Web日 志)。它包括了所请求的URL,发出请求的IP地址和时间戳。对于Web 服务器,其上保存了大量的Web访问日志记录。对热点的Web站点每天 可以记录下数以百兆的记录,这些为数据挖掘提供了有关Web动态的丰 富的信息,因此研究复杂的Web日志挖掘技术是十分重要的。Web数据 挖掘技术,从Web日志中提取有用的模式,这些模式能够揭示站点访问 者的某些特性 [1]。 1.决策树的建立 Web机器人 (Web爬行者)是一个软件程序,它可以跟踪嵌入网页 中的超链接,定位和获取Internet上的信息。这些程序安装在搜索引 擎的入 口,收集索引网页必须的文档。在应用Web挖掘技术分析人类的 浏览习惯之前,必须过滤掉Web机器人的访问。 决策树是一种构建分类模型的非参数方法,它不要求任何先验建 设,不假定类和其它属性服从一定的概率分布[2]。它具有分类精度 SERVER/product.ptIp 高,生成模式简单,对噪声数据有很好的健壮性。是 目前应用最广泛 图1.Web会话 表1.web服务器日志样本 会话 IP ^ 时间戳 请求方法 请求页面 协议 状态 字节数 08/Aug/2013 1 221.200.133.49 10 GET http/www.syxmt.COIn.Cn HTTP/1.1 200 6424 :15:21 2 22 08/Aug/2013 http/www.syxmt.com.cn/server/pr0duce. 1.200.148.53 10 GET ltTTP/1.1 200 1O18546 :15:34 php 1 22 08/Aug/2013 1.200.133.25 10 GET http/www.syxmt.c0ncn/housing.php HTTP/1.1 200 41378 :16:11 0g/Aug/2013 l 221.200.164,8 10 GET http/w~.syxmt.COLD.Cn HTTP/

您可能关注的文档

文档评论(0)

kfigrmnm + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档