Web日志挖掘预处理过程分析.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web日志挖掘预处理过程分析.pdf

维普资讯 第 4期 (总第 81期 ) 山 西 气 象 No.4(SumNo.81) 2007年 12月 SHANXIMETEOROLOGICAL QUARTERLY Dec.20o7 Web日志挖掘预处理过程分析 岳鹏宇 ,李馗峰 ,武永利 ,王云峰 (1.山西省气象局。山西 太原 030002;2.山西省气象台,山西 太原 030006; 3.山西省气候 中心,山西 太原 030006) 摘 要 :Web日志数据包括 :客户端浏览器 日志记录、网站服务器访问记录、代理服务器 日志记录、用户注册信 息等。Web日志挖掘分为 :数据预处理 、模式发现 、模式分析三个 阶段 。本文意在讨论这三个阶段所遇到的问 题 和解决办法 。 关键词 :Web;日志;数据预处理 中图分类号:TP393 文献标识码:B l Web挖掘的原始数据源 行预处理 ,包括依赖于域的数据净化 、用户识别 、会 Web日志挖掘发现 日志文件中的有用信 息。 话识别和路径补充 、事物识别等。对 日志进行预处 Web日志挖掘除了需要 日志文件外 ,通常还需要其 理 的结果直接影 响到挖掘算法产生 的规则与模 他 Web数据 。Web数据可分为四类 :内容数据 、结构 式 。可以说预处理过程是Web日志挖掘质量保证的 数据 、网站访 问数据、用户注册数据 。 关键 。 Web使用记录挖掘数据源分析。Web使用记录 2.1 数据净化 挖掘是对 日志记录进行分析 、挖掘 : 数据净化指删除 Web服务器 日志中与挖掘算 a)Web服务器 日志 :Web服务器在响应用户的 法无关的数据 。 请求时 ,将用户请求 的文件发送出去的同时把这次 我们先来看一看 Web服务器是怎样记录 日志 请求写入 日志,所以Web服务器 日志记录了用户访 文件的。当用户向服务器请求页面时,Web服务器 问本站点的信息。服务器端 的日志记录是 Web挖掘 将该页面对应的HTML文件传送给用户 ,并将这次 的主要数据源 ,它一般分三部分 :访问 日志 (Access 请求记录在服务器 日志中。当游览器解释文件内容 Log),代理 日志 (AgentLog),引用 日志 (Referrer 时 ,如果还需要向服务器请求新的资源 (其中除了 Log)。 HTML文件还有图形和脚本等),则浏览器根据文件 访 问日志主要记录基本 的请求信息,包括:用户 中提供的URL发出新的请求 ,服务器接到请求后重 的 IP地址 、时间戳 、方法 (如 GET,POST)、被请求文 复上述响应和记录 日志的过程 。所 以说用户看到的 件的URL、超文本传输协议 (H1TrP)的版本号、返回 一 个页面可能包含多个文件 ,由于 H耵P协议中对 码 (请求的状态 ,成功或错误码)、传输字节数。代理 Web服务器 的文件请求是每个文件一个单独 的连 日志记录用户使用的操作系统以及浏览器类型。引 接 ,所以在服务器中对应有多条记录。 用 日志记录用户的请求是来 自那个 URL。 由于在 Web日志 中通常只有 HTML文件与用 b)客户端的日志记录 :由运行在客户端的程序 户会话相关 ,所 以通过检查 URL的后缀删除认为不 或浏览器本身记录用户的浏览行为,客户端的 日志 相关的数据。例如 :将 日志中文件后缀名为 gif,jpeg, 记录能够很好地反映用户的访问行为,但 由于个人 JPg,swf,CSS,Is和 map的请求项删除,另外 ,后缀名 隐私原因,

文档评论(0)

weiwoduzun + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档