- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
                        查看更多
                        
                    
                数据挖掘之web日志挖掘相关技术研究.doc
                    WEB日志挖掘技术研究
[摘要] 随着网络信息的丰富,有效利用网络资源非常重要。web日志挖掘,利用数据挖掘技术从web服务器的日志中发掘有用的知识。通过web日志挖掘,可以找出浏览者的兴趣、访问习惯和偏好路径,得到用户访问Web页面的模式。本文从web日志挖掘的现状、原理和发展趋势进行了分析。
[关键字]数据挖掘;web日志挖掘;预处理
1 引言
随着网络技术的发展,Web上的数据信息越加丰富。在数据挖掘研究领域中,Web日志挖掘是一个最重要的应用方面。web日志挖掘是将数据挖掘的技术应用于Web服务器上的日志文件,以发现用户的浏览模式,抽取用户感兴趣的访问模式,并分析和研究日志记录的规律,以帮助理解用户的行为以及用户的网络行为,从而改进站点的结构及性能,构造自适应网站为用户提供个性化的服务,发现潜在的用户群体。本文对相关文献进行分析,深入探讨了web日志挖掘的过程,方法,应用和研究方向。
2 web日志挖掘的研究现状
1997年D.S.W.Ngu和X.Wu等人[1]也研究了SiteHelper系统,其主要方法是使用信息提取的方法提取页面信息,并且结合用户访问历史、用户个人资料提供的线索,向用户动态推荐访问的页面。但是,由于这个系统主要是根据页面内容和链接提供信息,对用户行为考虑的相对较少,而且他要求用户注册,以获得用户个人信息。这又涉及了比较敏感的用户个人隐私问题。因此很遗憾,这个系统并没有投入市场。1998年Han[3]把Web服务器访问日志集成到数据立方体结构(data cube structer)中。这样就可以对访问日志用传统的在线数据分析处理过程(OLAP)来处日志数据了。因为其分析主要用的是动态网站日志,因此,他假定客户端的缓存影响不大。1999年,J.Borges等人[3]提出了引入超链接概率原理,修改了传统意义上对序列的界定,可以把用户的访问在网站结构中记录下来,根据访问的条件概率判断用户频繁访问路径。
国内,1999年陈宁综述了国外应用数据挖掘技术解决Internet应用问题的做法[4]。1999年,周斌等介绍了采用E-OEM模型,并用5个用户访问模式做训练数据集,尝试着进行了关联规则挖掘[5]。2000年,台湾学者Judy等人提出了TAM模型,对访问某网站的200个学生进行问卷调查,寻找评价网站提供信息质量的要素[6]。
3 Web日志挖掘的处理过程
Web日志挖掘是对用户访问Web时服务器方留下的记录进行挖掘,得到用户的访问模式和访问兴趣。
Web日志挖掘方法主要有两大类: 一类是基于Web事务,将数据挖掘技术应用于Web服务器日志,以期发现用户浏览模式。这类方法提出了最大向前引用序列(MFR)的概念,并用它将用户会话分割成一系列的事务,然后采用与关联规则相似的方法挖掘频繁浏览路径。它侧重于用关联规则、序列模式的挖掘和分析,即找出每一个用户的频繁遍历路径,从而进行以事务和序列为出发点的知识发现。第二类方法是基于数据立方体的方法,即根据 Web 日志建立数据立方体,然后对立方体进行数据挖掘和OLAP。基于数据立方体的日志挖掘,侧重于将 Web 日志转变为结构化的数据立方体,能从多个维度全面地进行挖掘和分析,并能引进各种成熟的数据挖掘技术,有利于 Web 挖掘与数据挖掘技术的迅速发展。对Web日志文件的研究,主要能完成简单的统计分析和智能分析两大任务。通过Web缓存、Web页面预读取及网页交换、页面的浏览情况等实现。
Web 日志挖掘过程一般分为四部分:日志采集、预处理、模式发现和模式分析阶段。
3.1 数据采集
Web日志挖掘可以从服务器端、客户端和代理服务器端收集原始数据。
3.2 数据预处理
预处理的结果是挖掘算法的输入,它直接影响挖掘质量。
(1)数据清洗 Web 服务器日志文件通常包括以下内容:IP 地址、请求的时间、访问的方法、访问结果和文件大小等。数据清洗,是指剔除服务器日志中与挖掘算法无关的数据。一般情况下日志中只有 HTML文件与用户会话相关,通过检查客户浏览器类型或 HTML的后缀删除那些不相关的数据。
(2)用户识别 识别用户对于会话识别特别是为提供个性化的服务非常重要。用户识别是将用户和请求的页面相关联的过程,主要处理多个用户通过代理服务器或防火墙访问站点的情况。利用cookies和嵌套会话DIS可以很方便地识别出用户。
(3)会话识别 识别出用户后,还要为每个用户的所有点击序列划分会话。会话识别的目的是将用户的访问记录划分为单个会话。
(4)补充路径 推断出读取缓存网页的情况。由于存在代理服务器缓存,使得服务器的日志通常会遗漏一些重要的页面请求。此时应根据用户访问路径进行推理,检查引用日志并将遗漏的页面补充在路径里。
(5)事务识别 挖掘关联规则、频繁路径比其它挖掘算法多一项任务。
                您可能关注的文档
最近下载
- 2025年70岁以上老人考驾驶证三力测试题.pdf VIP
- 西游记中的乘法口诀(教学设计)-2024-2025学年二年级上册数学北师大版.docx VIP
- 护理事业十五五发展规划(2026-2030).docx
- 护理事业十五五(2026-2030)发展规划纲要.docx
- 青海省2025年中考语文真题试卷附同步解析答案.docx VIP
- DB50T 1015-2020 土地整治项目规划设计规范 .pdf VIP
- 2025-2026学年高中通用技术必修《技术与设计1》地质版(2019)教学设计合集.docx
- 【长租公寓】冠寓运营管理手册.docx VIP
- 2024-2025学年广东省东莞市东华中学九年级上期中物理试卷附答案解析.pdf
- 2025-2026学年东莞市东华初级中学九年级上期中物理试卷附答案解析.pdf
 原创力文档
原创力文档 
                        

文档评论(0)