- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络日志挖掘技术剖析
网络日志挖掘技术剖析
摘要:随着网络信息的迅速增长,网络日志的数据量也成几何级数增长,而这些日志是具有一定的利用价值的。做为一种数据挖掘技术应用的网络日志挖掘就是对网络日志价值的一种利用方式。介绍网络日志挖掘技术的背景、定义,描述网络日患挖掘技术的具体实现过程,最后提出网络日志挖掘技术的具体的应用。
关键词:网络日志挖掘;数据挖掘
中图分类号:TP3
文献标识码:A
文章编号:1671-7597(2010)0720063-02
0 引言
在网络信息日益丰富的今天,网络日志的数据量也成几何级数增长,随之也出现了一些问题:一是许多网站的结构日益的复杂,用户要从大量的资源中迅速获取需要的信息变得十分困难:二是传统的网络服务不是智能型服务,对所有用户一视同仁,因而无法满足每个用户特定的需求;三是网站经营者、维护者为满足大量的用户需求,需要不停的对网站结构进行改进和优化,更新周期短工作量大。网络日志挖掘技术的出现,可以预测用户的浏览行为,使网站经营者、维护者可根据用户需求的特点建立自适应站点,减少网站结构优化工作量,同时也可对用户提供个性化的服务,能有效解决上述三个问题。
1 网络日志挖掘技术
网络日志是记录用户对服务器访问情况的日志文件,包括访问日志、引用日志、代理日志、错误日志等服务器日志文件。由于用户的访问,服务器会记录下大量的日志文件,如图1所示。网络日志挖掘是数据挖掘技术的一个应用,就是通过对网站的日志文件中数据的分析,发现用户的使用规律,用于预测用户的浏览行为。为网站经营者、维护者提供各种利于两络站点改进或可以带来经济效益的信息,以达到挖掘潜在的商业价值和优化网站结构的目的。
2 网络日志挖掘过程
网络日志挖掘的过程主要为四个阶段;数据预处理、事务识别、模式识别和对挖掘出来的模式进行分析过程,如图2所示。
首先根据挖掘目的将服务器中的原始日志文件经过预处理过程,筛选出有效数据,并对数据进行整理;然后对有序数据进行事务识别,得到事务数据;之后通过实施数据挖掘算法挖掘数据的模式,得到模式库;最后对获取的模式进行分析,选择出有利用价值的模式用于应用。下面详细介绍网络日志挖掘的各个步骤的具体实现方法。
2.1数据预处理
以Web服务器日志为例,当用户访问Web服务器时。Web服务器会产生3种类型的日志文件:Server logs、Cookie logs、Error logs,这些日志详细记录了用户访问服务器的信息:用户的IP地址、时间、方法(如GET、POST)、被请求文件的uRL、超文本传输协议(HTTP)的版本号、返回码(请求的状态,成功或错误码)、传输字节数、代理(用户使用的浏览器和操作系统的类型),有些扩展日志还包括参考页的URL(用户从该页发出当前文件的请求)。一方面,网络日志挖掘主要是提供面向用户的信息分析。因此网络日志挖掘首先要从网络日志中识别出用户会话作为信息分析的基础,对网络日志进行预处理所得到的结果直接影响到挖掘算法产生的规则与模式;另一方面,由于代理服务器和客户端的缓存,web服务器日志并没有完整地记录用户的所有请求,网络日志挖掘不能完全依赖于web服务器日志,因此进行用户会话识别是比较困难的一项任务。由此可见预处理过程是网络日志挖掘质量保证的关键。
网络日志数据预处理技术就是将原始的日志文件结合站点的结构和web页面的内容,经过一系列的数据处理转化为用户会话,包括步骤有数据清洗(即删除Web服务器日志中与挖掘算法无关的数据。Web访问日志记录了用户的IP地址和用户的访问时间等信息,但是用户访问网页时,一般只对网页中的某一部分内容感兴趣,比如一些广告信息、图片、动画等,而用户点击这些文件的信息也记录在web访问日志中,所以我们在挖掘用户的访问兴趣时。不希望这些冗余信息影响到挖掘用户的真正兴趣,把冗杂信息过滤掉,形成数据挖掘阶段容易处理的事务信息并存储到合适的数据库)、数据集成、数据转换和数据消减,在对包含有噪声(数据中存着错误或异常)、不完整(感兴趣的属性没有值),甚至是不一致(数据内涵出现不一致情况)数据进行挖掘时,更需要进行数据的预处理,删除日患文件中不相关的冗余项,并将有用的日志记录转换成适当的数据格式,以提高数据挖掘对象的质量,并最终达到提高数据挖掘所获模式知识质量的目的,其结果将直接影响到算法处理结果的准确度和可信度。
2.2事务识别
事务识别需建立在对用户会话识别的基础上,目的是依据数据挖掘任务的需求将事务作分割或合并处理。使其适合于数据挖掘需求的分析,主要有用户识别、会话识别、路径补充和事务识别四个步骤。
用户识别,用户识别是
原创力文档


文档评论(0)