数据挖掘之web日志挖掘相关技术研究.docVIP

下载本文档

2
0
约5.16千字
约 6页
2015-08-19 发布于河南
举报
版权申诉

数据挖掘之web日志挖掘相关技术研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘之web日志挖掘相关技术研究.doc

WEB日志挖掘技术研究 [摘要] 随着网络信息的丰富，有效利用网络资源非常重要。web日志挖掘，利用数据挖掘技术从web服务器的日志中发掘有用的知识。通过web日志挖掘，可以找出浏览者的兴趣、访问习惯和偏好路径，得到用户访问Web页面的模式。本文从web日志挖掘的现状、原理和发展趋势进行了分析。 [关键字]数据挖掘；web日志挖掘；预处理 1　引言随着网络技术的发展，Web上的数据信息越加丰富。在数据挖掘研究领域中，Web日志挖掘是一个最重要的应用方面。web日志挖掘是将数据挖掘的技术应用于Web服务器上的日志文件，以发现用户的浏览模式，抽取用户感兴趣的访问模式，并分析和研究日志记录的规律，以帮助理解用户的行为以及用户的网络行为，从而改进站点的结构及性能，构造自适应网站为用户提供个性化的服务，发现潜在的用户群体。本文对相关文献进行分析，深入探讨了web日志挖掘的过程，方法，应用和研究方向。 2　web日志挖掘的研究现状 1997年D.S.W.Ngu和X.Wu等人[1]也研究了SiteHelper系统，其主要方法是使用信息提取的方法提取页面信息，并且结合用户访问历史、用户个人资料提供的线索，向用户动态推荐访问的页面。但是，由于这个系统主要是根据页面内容和链接提供信息，对用户行为考虑的相对较少，而且他要求用户注册，以获得用户个人信息。这又涉及了比较敏感的用户个人隐私问题。因此很遗憾，这个系统并没有投入市场。1998年Han[3]把Web服务器访问日志集成到数据立方体结构(data cube structer)中。这样就可以对访问日志用传统的在线数据分析处理过程(OLAP)来处日志数据了。因为其分析主要用的是动态网站日志，因此，他假定客户端的缓存影响不大。1999年，J.Borges等人[3]提出了引入超链接概率原理，修改了传统意义上对序列的界定，可以把用户的访问在网站结构中记录下来，根据访问的条件概率判断用户频繁访问路径。国内，1999年陈宁综述了国外应用数据挖掘技术解决Internet应用问题的做法[4]。1999年，周斌等介绍了采用E-OEM模型，并用5个用户访问模式做训练数据集，尝试着进行了关联规则挖掘[5]。2000年，台湾学者Judy等人提出了TAM模型，对访问某网站的200个学生进行问卷调查，寻找评价网站提供信息质量的要素[6]。 3　Web日志挖掘的处理过程 Web日志挖掘是对用户访问Web时服务器方留下的记录进行挖掘，得到用户的访问模式和访问兴趣。 Web日志挖掘方法主要有两大类: 一类是基于Web事务，将数据挖掘技术应用于Web服务器日志，以期发现用户浏览模式。这类方法提出了最大向前引用序列(MFR)的概念，并用它将用户会话分割成一系列的事务，然后采用与关联规则相似的方法挖掘频繁浏览路径。它侧重于用关联规则、序列模式的挖掘和分析，即找出每一个用户的频繁遍历路径，从而进行以事务和序列为出发点的知识发现。第二类方法是基于数据立方体的方法，即根据 Web 日志建立数据立方体，然后对立方体进行数据挖掘和OLAP。基于数据立方体的日志挖掘，侧重于将 Web 日志转变为结构化的数据立方体，能从多个维度全面地进行挖掘和分析，并能引进各种成熟的数据挖掘技术，有利于 Web 挖掘与数据挖掘技术的迅速发展。对Web日志文件的研究，主要能完成简单的统计分析和智能分析两大任务。通过Web缓存、Web页面预读取及网页交换、页面的浏览情况等实现。 Web 日志挖掘过程一般分为四部分:日志采集、预处理、模式发现和模式分析阶段。 3.1　数据采集 Web日志挖掘可以从服务器端、客户端和代理服务器端收集原始数据。 3.2　数据预处理预处理的结果是挖掘算法的输入，它直接影响挖掘质量。（1）数据清洗 Web 服务器日志文件通常包括以下内容:IP 地址、请求的时间、访问的方法、访问结果和文件大小等。数据清洗，是指剔除服务器日志中与挖掘算法无关的数据。一般情况下日志中只有 HTML文件与用户会话相关，通过检查客户浏览器类型或 HTML的后缀删除那些不相关的数据。（2）用户识别识别用户对于会话识别特别是为提供个性化的服务非常重要。用户识别是将用户和请求的页面相关联的过程，主要处理多个用户通过代理服务器或防火墙访问站点的情况。利用cookies和嵌套会话DIS可以很方便地识别出用户。（3）会话识别识别出用户后，还要为每个用户的所有点击序列划分会话。会话识别的目的是将用户的访问记录划分为单个会话。（4）补充路径推断出读取缓存网页的情况。由于存在代理服务器缓存，使得服务器的日志通常会遗漏一些重要的页面请求。此时应根据用户访问路径进行推理，检查引用日志并将遗漏的页面补充在路径里。（5）事务识别挖掘关联规则、频繁路径比其它挖掘算法多一项任务。