web日记挖掘数据预处理研究.docxVIP

下载本文档

0
0
约4.3千字
约 7页
2023-10-07 发布于广东
举报
版权申诉

web日记挖掘数据预处理研究.docx

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

web日记挖掘数据预处理研究 1 web测量方法随着网络技术的快速发展，网络信息的急剧扩张，其中包含的知识尚未得到充分利用。因此，web数据结构已成为研究数据技术的热点。web数据主要分为三种类型：网络内容挖掘（web内容获取）web结构挖掘（web结构提升）和web动态挖掘（web应用）。 Web日志挖掘的主要目标是从Web的访问记录中抽取感兴趣的模式.当前,Web日志挖掘领域的研究已取得了很大的进展,但是目前的研究重点大多集中在Web日志挖掘系统和算法的设计、分析与改进,对于Web日志挖掘预处理研究较少,对其中的关键算法研究更少.然而,由于本地缓存、代理服务器和防火墙的存在,使得Web Log中的数据并不精确,直接在其上进行挖掘非常困难.因此,数据预处理是Web日志挖掘的基础,正确有效地对Log文件进行预处理,对于挖掘出准确可靠的模式和其他隐含的知识极为重要.文中研究了Web日志挖掘数据预处理的主要步骤,重点设计了用户识别、访问操作识别和路径完善三个步骤的关键算法. 2 web纪事数据的预处理过程 2.1 基于平台的信息,用户的需求,以及请求的过程是由客户主机的信典型的访问Log文件中记录的是用户访问信息,不同的服务器的Web日志记录是不同的,但其中都包含有用户访问的基本信息.典型的Log文件包含信息有:客户主机的IP;时间戳;请求的方法(GET、POST等);请求文档的URL;HTTP版本号;返回码(即请求的状态:成功或错误码);传输的比特数;引用Web页的URL(该页面可链接到当前访问的URL,命名为Re_URL);代理服务器(如proxy或客户端浏览器)Agent ID. 2.2 数据预处理流程一般来讲,Web日志挖掘数据预处理阶段的输入为服务器的Log文件、站点文件和统计数据等,输出为用户访问操作文件、用户模式文件和站点拓扑结构.Web日志挖掘数据预处理流程图如图1所示. 2.3 web纪事数据提取和预处理步骤 Web日志挖掘数据预处理步骤主要包括:数据净化、用户识别、访问操作识别、路径完善和用户模式识别等. 2.3.1 过滤条件表的建立数据净化是指删除Web服务器日志中与挖掘算法无关的数据.要实现数据净化,关键是利用一些启发式规则建立过滤条件表,根据过滤条件表过滤无关的数据.主要的规则有: 2.3.2 实现服务器的cache技术数据净化完成以后,下一个步骤是用户识别.由于客户端和服务器端往往使用了cache技术,Web服务器的Log文件无法记录访问存储在cache中的Web页的操作. 2.3.3 多次访问的时间间隔特性对于跨度很长时间的Log文件,可能包含了一个用户多次访问同一个Web站点的访问操作记录.识别用户的每一次访问操作,最有效的方法是利用每一次访问操作的时间戳的时间间隔特性. 2.3.4 推广路径可靠识别不同用户的访问操作的另一个关键就是确定访问日志中是否有重要的请求没有被记录.这一问题我们称之为路径完善. 2.3.5 用户模式和时间窗法经过前面的各个数据预处理步骤,可以得到用户访问操作序列集合.但是这对于Web日志挖掘来讲,仍不够精确.因此,需要进一步进行用户模式的识别.所谓用户模式,就是对用户的每一次访问操作序列进行语义分组后得到的页面序列.用户模式识别方法主要有三种:引用时长法、最大向前访问路径法(MFP)和时间窗法. 经过以上几个步骤,可以获得多个用户模式,并且可以生成每一个用户的模式文件,每一个用户的模式文件包含了若干个用户模式. 用户模式如定义1所示. 设L为用户访问操作集合,每一条访问记录l∈L包括:用户主机地址l.ip,用户ID号l.uid,被访问Web页的URL地址l.url,访问时间戳l.time和访问Web页的时长l.timelength. 定义1 用户模式定义为三元组,形式化表示如下: t=ipt,uidt,URLt; URLt={(ltllt.url,ltllt.time,ltllt.timelength),…,(ltmmt.url,ltmmt.time,ltmmt.timelength)} 其中,ltkkt∈L, ipt=ltkkt.ip, uidt=ltkkt.uid, l≤k≤ m; ltkkt.timelength=ltk+1k+1t.time-ltkkt.time, l≤k≤m-1. 3 数据预处理关键算法用户识别、访问操作识别和路径完善是Web日志挖掘数据预处理的三个关键步骤,但是当前对这三个步骤的关键算法研究较少.针对这三个关键步骤,文中设计了相应的关键算法. 3.1 gllog采用文中采用一些启发式规则来识别不同的用户,用户识别启发式算法如下: 算法1 从数据净化的Log文件记录中识别用户的启发式算法输入:数据净化的Log文件GL_Log