Web日志挖掘在校园网建设中应用.docVIP

下载本文档

1
0
约2.91千字
约 8页
2018-07-14 发布于福建
举报
版权申诉

Web日志挖掘在校园网建设中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web日志挖掘在校园网建设中应用

Web日志挖掘在校园网建设中应用　　摘要：本文以某高校校园网日志数据为应用实例进行日志挖掘，并根据挖掘结果对校园网网站的结构改进提出了建议。　　关键词：数据挖掘 Web日志挖掘 Agent技术　　　　1.引言　　　　Web是一个开放性的全球分布式网络，资源分布在全球不同的地方，并且网上的资源没有统一的管理和结构，导致了信息搜寻的困难。本文设计了一个利用Agent技术实现Web日志挖掘的系统模型，把Web挖掘任务分配给多个Agent来共同完成，包括预处理Agent、数据挖掘Agent、测试Agent、评价Agent等，每个Agent都有自己的目标，有独立完成任务的能力，也可以和用户等外部环境进行交互。模型能适用于Web信息处理的各种应用，在信息的个性化推荐、电子商务的个性化服务、智能教学系统的建立、网站结构的改进等方面有应用前景。　　本文以某高校校园网日志数据为应用实例进行日志挖掘，并根据挖掘结果对校园网网站的结构改进提出了建议。　　　　2.具体应用　　　　2.1选取数据源　　实验的数据源为某高校校园网服务器上的日志文件，选取2007年9月份的Web访问日志作为挖掘对象，该校园网主页共链接有18个分类页面，如“学院概况”、“机构设置”、“师资队伍”、“招生就业”、“校园风光”、“图书馆”等，称为一级子页面。一级子页面链接的下一级页面称之为二级子页面，二级子页面共有96个。二级子页面链接的下一级页面定义为三级子页面，以此类推。由于信息量巨大，为了简化实验过程，只选取了8万余条日志进行分析。　　2.2数据预处理　　（1）数据净化　　数据净化是数据预处理的第一项任务，指的是将服务器日志中无意义的、无关紧要的数据去除，仅保留对挖掘有意义的数据。潍坊学院校园网服务器上的日志记录包括用户ID、用户IP地址、用户请求访问的URL页面、请求方法、访问时间、传输协议、传输的字节数、错误代码等属性，而与数据挖掘相关的只有用户IP地址、用户ID、用户请求访问的URL页面及访问时间，其他属性都可以去掉。另外，URL页面中除了用户关心的正文外，往往还有图像、声音、视频等辅助信息，挖掘Web日志的目的是找出用户的共同访问模式，关于辅助信息的记录是无用的，可以删除。通过检查URL的后缀，将后缀名为GIF、JPEG、JPG、gif、 jpeg、jpg、swf、css、js和map的请求项删除。　　（2）用户识别　　系统使用的技术是基于日志/站点的方法，并辅助一些启发式规则帮助识别用户：不同的IP地址代表不同的用户；用户的IP地址相同，但相应的代理日志如果显示用户的操作系统或者浏览器类型改变了，就代表不同的用户；如果用户的IP地址相同，操作系统和浏览器的类型也相同，则根据网站的页面链接结构对用户进行识别；如果当前浏览的页面同用户已浏览的页面没有超链接关系，那么就认为存在另外有相同IP地址的用户。　　（3）会话识别　　系统使用的会话识别方法是使用时间戳timeout，将时间戳设置为30分钟。如果用户在连续浏览一些页面后，30分钟后再访问了其它的页面，也只把前面所连续访问的页面作为一个页面集；如果30分钟之内接着访问了其它页面，则计入同一个会话中。　　（4）路径补全　　检查当前引用日志确定引用请求来自哪一页，如果在用户的历史记录中有多个页面都包含于当前请求页的链接，则将请求时间最接近当前请求页的页面作为当前请求的来源。若引用日志不完整，可以使用站点的页面链接结构代替。通过这种方法将遗漏的页面请求添加到用户的会话文件中。　　（5）事务识别　　系统采用的事务识别算法是时间窗方法，具体算法如下：　　输入：日志L 　　输出：用户访问事务集T 　　T=NULL；　　UserAccessSet=Partition(L)；//根据每一个IP和代理对划分日志。　　FOR each ua ∈UserAccessSet BEGIN 　　ua=sort(ua)；//对每一个访问者的访问记录根据时间升序排列　　t=NULL；　　FOR each l［j］∈ua BEGIN 　　IF (l［j］.time-l［j-1］.time)C THEN 　　Add(t，l［j］)；//把l［j］增加到t的尾部　　ELSE BEGIN 　　T=T∪{t}；　　T=NULL；　　END 　　 END 　　END 　　时间窗的大小界定是一个经验值，在该实验中选取30分钟，找到相应的事务集就可以对这个事务集进行挖掘工作。　　2.3数据挖掘　　经过数据预处理Agent的处理，得到近6000多个访问记录，其中涉及的不同页面有426个。实验选取最小支持度=10%，最小可信度=40%，利用关联规则方法进行挖掘。可信度最高的8条强关联规则如下：