- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web日志挖掘预处理过程分析.pdf
维普资讯
第 4期 (总第 81期 ) 山 西 气 象 No.4(SumNo.81)
2007年 12月 SHANXIMETEOROLOGICAL QUARTERLY Dec.20o7
Web日志挖掘预处理过程分析
岳鹏宇 ,李馗峰 ,武永利 ,王云峰
(1.山西省气象局。山西 太原 030002;2.山西省气象台,山西 太原 030006;
3.山西省气候 中心,山西 太原 030006)
摘 要 :Web日志数据包括 :客户端浏览器 日志记录、网站服务器访问记录、代理服务器 日志记录、用户注册信
息等。Web日志挖掘分为 :数据预处理 、模式发现 、模式分析三个 阶段 。本文意在讨论这三个阶段所遇到的问
题 和解决办法 。
关键词 :Web;日志;数据预处理
中图分类号:TP393 文献标识码:B
l Web挖掘的原始数据源 行预处理 ,包括依赖于域的数据净化 、用户识别 、会
Web日志挖掘发现 日志文件中的有用信 息。 话识别和路径补充 、事物识别等。对 日志进行预处
Web日志挖掘除了需要 日志文件外 ,通常还需要其 理 的结果直接影 响到挖掘算法产生 的规则与模
他 Web数据 。Web数据可分为四类 :内容数据 、结构 式 。可以说预处理过程是Web日志挖掘质量保证的
数据 、网站访 问数据、用户注册数据 。 关键 。
Web使用记录挖掘数据源分析。Web使用记录 2.1 数据净化
挖掘是对 日志记录进行分析 、挖掘 : 数据净化指删除 Web服务器 日志中与挖掘算
a)Web服务器 日志 :Web服务器在响应用户的 法无关的数据 。
请求时 ,将用户请求 的文件发送出去的同时把这次 我们先来看一看 Web服务器是怎样记录 日志
请求写入 日志,所以Web服务器 日志记录了用户访 文件的。当用户向服务器请求页面时,Web服务器
问本站点的信息。服务器端 的日志记录是 Web挖掘 将该页面对应的HTML文件传送给用户 ,并将这次
的主要数据源 ,它一般分三部分 :访问 日志 (Access 请求记录在服务器 日志中。当游览器解释文件内容
Log),代理 日志 (AgentLog),引用 日志 (Referrer 时 ,如果还需要向服务器请求新的资源 (其中除了
Log)。 HTML文件还有图形和脚本等),则浏览器根据文件
访 问日志主要记录基本 的请求信息,包括:用户 中提供的URL发出新的请求 ,服务器接到请求后重
的 IP地址 、时间戳 、方法 (如 GET,POST)、被请求文 复上述响应和记录 日志的过程 。所 以说用户看到的
件的URL、超文本传输协议 (H1TrP)的版本号、返回 一 个页面可能包含多个文件 ,由于 H耵P协议中对
码 (请求的状态 ,成功或错误码)、传输字节数。代理 Web服务器 的文件请求是每个文件一个单独 的连
日志记录用户使用的操作系统以及浏览器类型。引 接 ,所以在服务器中对应有多条记录。
用 日志记录用户的请求是来 自那个 URL。 由于在 Web日志 中通常只有 HTML文件与用
b)客户端的日志记录 :由运行在客户端的程序 户会话相关 ,所 以通过检查 URL的后缀删除认为不
或浏览器本身记录用户的浏览行为,客户端的 日志 相关的数据。例如 :将 日志中文件后缀名为 gif,jpeg,
记录能够很好地反映用户的访问行为,但 由于个人 JPg,swf,CSS,Is和 map的请求项删除,另外 ,后缀名
隐私原因,
您可能关注的文档
- W6Mo5Cr4V2角铣刀热处理开裂原因分析及工艺改进.pdf
- W8油气田地质建模研究.pdf
- Wacker公司乘式压路机的全新设计.pdf
- WAN电火花工作液改性研究现状.pdf
- WAPI与IEEE 802.11i安全协议通信性能分析.pdf
- Warm Deformation Behavior of High Carbon Steel with Martensite Starting Structure.pdf
- WAS在商品房销售管理系统中的开发应用.pdf
- WBZ21稳定土拌和机综合显示仪的开发与研制.pdf
- WCDMA-HSDPA的问题分析及其改进方案.pdf
- WCDMA与WiMAX系统共存干扰分析.pdf
最近下载
- 免费小学生竞选班长卡通PPT模板 (31).pptx VIP
- 电动汽车控制系统及检修课件-第一部分.pptx VIP
- 高中研究性学习调查报告PPTppt.pptx VIP
- 2025年高考英语阅读理解238个抢分关键词+572个高频词.doc VIP
- 4)-A統計基礎及品質統計.ppt VIP
- 2025最新贵州省专业技术人员继续教育公需科目考试题库及答案(全)).docx VIP
- 赵海洋 十年 完整钢琴谱.pdf VIP
- 2025年高考语文备考之文言文《古文观止》训练50篇.pdf VIP
- 青岛版数学一年级上册《20以内的进位加法》单元整体备课设计.docx VIP
- 2025至2030中国跑腿服务行业市场分析及竞争形势与发展前景预测报告.docx
文档评论(0)