Web日志挖掘在校园网建设中应用.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web日志挖掘在校园网建设中应用

Web日志挖掘在校园网建设中应用   摘要: 本文以某高校校园网日志数据为应用实例进行日志挖掘,并根据挖掘结果对校园网网站的结构改进提出了建议。   关键词: 数据挖掘 Web日志挖掘 Agent技术      1.引言      Web是一个开放性的全球分布式网络,资源分布在全球不同的地方,并且网上的资源没有统一的管理和结构,导致了信息搜寻的困难。本文设计了一个利用Agent技术实现Web日志挖掘的系统模型,把Web挖掘任务分配给多个Agent来共同完成,包括预处理Agent、数据挖掘Agent、测试Agent、评价Agent等,每个Agent都有自己的目标,有独立完成任务的能力,也可以和用户等外部环境进行交互。模型能适用于Web信息处理的各种应用,在信息的个性化推荐、电子商务的个性化服务、智能教学系统的建立、网站结构的改进等方面有应用前景。   本文以某高校校园网日志数据为应用实例进行日志挖掘,并根据挖掘结果对校园网网站的结构改进提出了建议。      2.具体应用      2.1选取数据源   实验的数据源为某高校校园网服务器上的日志文件,选取2007年9月份的Web访问日志作为挖掘对象,该校园网主页共链接有18个分类页面,如“学院概况”、“机构设置”、“师资队伍”、“招生就业”、“校园风光”、“图书馆”等,称为一级子页面。一级子页面链接的下一级页面称之为二级子页面,二级子页面共有96个。二级子页面链接的下一级页面定义为三级子页面,以此类推。由于信息量巨大,为了简化实验过程,只选取了8万余条日志进行分析。   2.2数据预处理   (1)数据净化   数据净化是数据预处理的第一项任务,指的是将服务器日志中无意义的、无关紧要的数据去除,仅保留对挖掘有意义的数据。潍坊学院校园网服务器上的日志记录包括用户ID、用户IP地址、用户请求访问的URL页面、请求方法、访问时间、传输协议、传输的字节数、错误代码等属性,而与数据挖掘相关的只有用户IP地址、用户ID、用户请求访问的URL页面及访问时间,其他属性都可以去掉。另外,URL页面中除了用户关心的正文外,往往还有图像、声音、视频等辅助信息,挖掘Web日志的目的是找出用户的共同访问模式,关于辅助信息的记录是无用的,可以删除。通过检查URL的后缀,将后缀名为GIF、JPEG、JPG、gif、 jpeg、jpg、swf、css、js和map的请求项删除。   (2)用户识别   系统使用的技术是基于日志/站点的方法,并辅助一些启发式规则帮助识别用户:不同的IP地址代表不同的用户;用户的IP地址相同,但相应的代理日志如果显示用户的操作系统或者浏览器类型改变了,就代表不同的用户;如果用户的IP地址相同,操作系统和浏览器的类型也相同,则根据网站的页面链接结构对用户进行识别;如果当前浏览的页面同用户已浏览的页面没有超链接关系,那么就认为存在另外有相同IP地址的用户。   (3)会话识别   系统使用的会话识别方法是使用时间戳timeout,将时间戳设置为30分钟。如果用户在连续浏览一些页面后,30分钟后再访问了其它的页面,也只把前面所连续访问的页面作为一个页面集;如果30分钟之内接着访问了其它页面,则计入同一个会话中。   (4)路径补全   检查当前引用日志确定引用请求来自哪一页,如果在用户的历史记录中有多个页面都包含于当前请求页的链接,则将请求时间最接近当前请求页的页面作为当前请求的来源。若引用日志不完整,可以使用站点的页面链接结构代替。通过这种方法将遗漏的页面请求添加到用户的会话文件中。   (5)事务识别   系统采用的事务识别算法是时间窗方法,具体算法如下:   输入:日志L   输出:用户访问事务集T   T=NULL;   UserAccessSet=Partition(L);//根据每一个IP和代理对划分日志。   FOR each ua ∈UserAccessSet BEGIN   ua=sort(ua);//对每一个访问者的访问记录根据时间升序排列   t=NULL;   FOR each l[j]∈ua BEGIN   IF (l[j].time-l[j-1].time)C THEN   Add(t,l[j]);//把l[j]增加到t的尾部   ELSE BEGIN   T=T∪{t};   T=NULL;   END    END   END   时间窗的大小界定是一个经验值,在该实验中选取30分钟,找到相应的事务集就可以对这个事务集进行挖掘工作。   2.3数据挖掘   经过数据预处理Agent的处理,得到近6000多个访问记录,其中涉及的不同页面有426个。实验选取最小支持度=10%,最小可信度=40%,利用关联规则方法进行挖掘。可信度最高的8条强关联规则如下:  

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档