- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于ID3算法的Web日志挖掘预处理中的Frame页面过滤技术的研究_计算机论文.doc
基于ID3算法的Web日志挖掘预处理中的Frame页面过滤技术的研究_计算机论文
基于ID3算法的Web日志挖掘预处理中的Frame页面过滤技术的研究_计算机论文
摘 要 描述了Web日志数据预处理技术的一种改进技术——Frame过滤技术,对其关键部分与运作模式进行了研究与改进。讨论了Frame页面过滤预处理技术在Web页面挖掘中的效率问题,分析了决策树算法中最著名的算法——ID3算法,并用ID3算法对Frame过滤算法进行了改进,比较新旧算法的执行效率及算法结果质量,得出了新算法执行效率更高及质量更好的结论,从而搞高了对存在Frame页面的网站实施Web日志挖掘算法时挖掘结果的兴趣度。
关键词 ID3算法;Web日志挖掘;Web日志预处理Frame页面过滤
1 引言
Internet的迅速发展使得Web为人们提供了内容丰富且数量庞大的信息,随着数据挖掘技术的出现以及发展,数据挖掘逐渐被应用于Web数据。
Web日志挖掘是三大类Web挖掘之一,它主要包括数据预处理和挖掘算法实施两个主要阶段.实施挖掘算法之前要对Web日志文件进行预处理,将其转化为用户会话集.本文着重讨论Web日志挖掘预处理技术中的Frame页面过滤预处理技术,即在传统的Web日志预处理过程中加入Frame页面过滤这一步骤,并提出了用决策树算法著名的ID3算法进行Frame页面过滤,进一步提高了日志数据预处理的质量和效率,从而为挖掘算法的实施提供更为准确的数据,提高了对存在Frame页面的网站实施Web日志挖掘算法时整个Web日志挖掘的效率及挖掘结果的兴趣性。
2 Web日志预处理中的Frame页面过滤技术[2]
2.1 Web日志预处理技术现状
Web日志挖掘[1] [3-4]是指将数据挖掘技术应用于Web服务器日志文件,以发现隐藏在其中的用户访问模式。Web日志预处理是在Web日志挖掘前,对Web日志进行清理、过滤以及重新组合的过程,其目的是剔除日志中对挖掘过程无用的属性及数据,并将Web日志数据转换为挖掘算法可识别的保存形式。
到目前为止提出的Web日志的预处理技术,它包含三种方法识别用户的活动集合:
(1) Web服务器提供Cookie,则具有相同Cookie值的页面请求是来自同一个用户,则用户会话识别的主要的任务就是将Web日志划分为不同Cookie值所对应的页面请求集合。
(2) Web服务器没有提供Cookie,但每个网站用户都要一个登录标识符方可访问站点,则分析工具即可利用登录标识符识别会话。
⑴如果Web服务器既没有Cookie也没有登录标识符,可以利用主机地址,同时分析日志中每条记录的请求页和引用页的URL,然后根据Web站点的拓扑结构(超链接)和其它启发式规则识别用户会话,但是这种方法的精确度较低,不能100%正确地识别出每个请求对应的用户。
这里主要讨论第3种预处理方法。
一般Web日志预处理主要包括:数据净化、用户识别、会话识别、路径补充、事务识别
数据净化指删除Web服务器日志中与挖掘算法无关的数据。由于在Web日志中通常只有HTML文件与用户会话相关,所以通过检查URL的后缀删除不相关的数据。
用户识别是指要识别出每个访问网站的用户。一般Web日志挖掘工具中常使用基于日志/站点的方法,并辅助一些启发式规则帮助识别用户。
会话识别是将用户的访问记录分为单个的会话。通常采用超时方法识别用户会话,如果两页间请求时间的差值超过一定的界限(超时阈值)就认为用户开始了一个新的会话。
路径补充是由于本地缓存和代理服务器缓存的存在,使得服务器的日志会遗漏一些重要的页面请求。路径补充就是将这些遗漏的请求补充到用户会话中,解决的方法类似于用户识别中的方法。
事务识别,用户会话是Web日志挖掘中唯一具备自然事务特征的元素,但是,对于某些挖掘算法来说可能用户会话的粒度太大,需要利用分割算法将其转化为更小的事务。
一般通常采用图1所示的数据预处理过程。
如果按照前面所介绍的日志预处理技术对Web日志进行预处理,则Frame页面和其SubFrame页面也将一起出现在用户会话文件中。在这样的用户会话文件上进行数据挖掘,Frame页面和SubFrame页面作为频繁遍历路径或者频繁访问页组出现的概率很高,并且他们同时出现在挖掘结果中,这就降低了挖掘结果的兴趣性。图1 典型的Web日志数据预处理过程2.2 Frame页面过滤预处理技术
HTML规范通过“Frame”标记支持多窗口页面,每个窗口里装载的页面对应一个URL。 当用户请求Frame页面的URL时,Frame页面和其中的SubFrame页面作为一个多窗口页面展现在用户面前,我们可以将用户对Frame页面的请求看成就是对多窗口页面的请求。这样,在数据预处理阶段将Frame页面和其
您可能关注的文档
- 基于CBIR的计算机拼图系统的设计与实现_计算机论文.doc
- 基于CORBA的JAVA消息服务中间件的设计与优化_计算机论文.doc
- 基于CORBA的电子商务系统的安全性_计算机论文.doc
- 基于CORBA的自适应流媒体中间件系统的设计与实现_计算机论文.doc
- 基于CORDIC算法数字下变频器设计_计算机论文.doc
- 基于CPCI总线的数据采集卡及其驱动程序设计_计算机论文.doc
- 基于CRM信息技术的渠道偏好度模型的管理应用_通信学论文.doc
- 基于C语言设置TMS320 DSP中断向量表_计算机论文.doc
- 基于Delphi的水平定向钻进监控软件研究与实现_计算机论文.doc
- 基于DM642的图像边缘检测算法的研究_计算机论文.doc
- 基于IDEA算法的电子邮件加密与解密的实现_计算机论文.doc
- 基于iDEN专网的现代物流信息系统设计与功能实现_计算机论文.doc
- 基于IEEE 754的浮点数存储格式分析研究_计算机论文.doc
- 基于Internet的多媒体教学系统结构_计算机论文.doc
- 基于IOCP的局域网监控系统_计算机网络论文.doc
- 基于IPTV系统的多媒体视频业务研究_计算机论文.doc
- 基于IP技术的智能监控系统构架及装置研究_计算机网络论文.doc
- 基于Isabelle的证明信息系统设计_计算机论文.doc
- 基于ITIL的电子政务网络服务管理系统的探索_计算机论文.doc
- 基于ITU-T T.120协议族的数据会议的设计和实现_计算机论文.doc
最近下载
- 标准化站队建设(集输安全).ppt VIP
- 2025广西公需科目考试答案(3套涵盖95-试题)一区两地一园一通道建设人工智能时代的机遇与挑战.docx VIP
- 小红书种草营销师(初级)认证考试真题试题库(含答案).docx VIP
- DB45T 2310-2021 古树名木保护技术规范.docx VIP
- 发光标志设计图纸.pdf VIP
- 带式输送皮带机空载调试报告(竣工资料).xls VIP
- 行政执法人员执法行为规范课件.pptx VIP
- JEDEC JESD47L(中英文对照版).pdf VIP
- 奇电QD200系列变频器使用说明书.pdf
- GB-T20801-2006《压力管道规范-工业管道》.pdf VIP
文档评论(0)