Web日志挖掘预处理中的用户识别技术.docxVIP

下载本文档

3
0
约 12页
2024-01-09 发布于山东
举报
版权申诉

Web日志挖掘预处理中的用户识别技术.docx

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web日志挖掘预处理中的用户识别技术.docx

计算机科学2002V0129N9.4 Web日记发掘预办理中的用户辨别技术 UserIdentificationinthePreprocessmgofWebLogMining 吴.强.梁继民杨万海TP研A (西安电子科技大学电子工程学院西安7100711AbstractThetasksoftheWeb LogMiningpreprocessingareanalyzedandafunctionalmodelofittSpresented-Auser identificationmethodbased011cookietechnologyandextending WebLogattributesisproposedThemethodcandistinguisheffectivelythemultiple usersusingthesaF/leoneproxyserverandovertakethedffficuhiescausedbytheerasion olcookiesstoredontheuser’sfilesystem KeywordsWebLogMining.Preprocessing,Useridentilication.Cookie 1前言互联网技术和应用的快速发展使得能够从因特嗍获得的信息量口益剧增,所以急迫需要一种新的技术从这些信息中快速、实时地发现实用的知识.提升信息的利用率。作为数掘发掘技术。11研究的一个重要领域.Web日记发掘(WebLogMining 是从服务器日记文件内大批的用户接见记录中抽取实用信息的过程.经过对Weh日志的剖析.能够结构出用户的行为模式.关于剖析改良网络性能、优化网站的设计和拓扑结构以及改良公司的市场营销决议等会有极大的帮助o。”。目前web日记发掘领域的研究已获得了很大的进展.可是目前的研究要点多数集中于发掘算法的设计、剖析和改良.对日记文件预办理方法的研究相对较少,但是正确有效地对Web日记文件进行预办理.不单有益于随后的发掘算法剖析.并且关于最后形成正确靠谱的用户行为模式也是极为重要的. 本文对Web日记发掘预办理所要达成的任哥进行丁剖析,提出r一个Web日记预办理功能模型;剖析了现有Web口志预办理方法中的用户辨别技术.提出厂一种基于cc,okie技术和扩大日记属性的用户辨别方法,这种方法不单能够有效地辨别经过同一代理服务器接见的不一样用户.并且较好地解决了由用户删除本机cookit而产生的同一用户多次被标示的问题。 2Web日记发掘预办理一般的Web日记文件中记录的是每个接见用户的信息.不一样服务器的Web日记记录是不一样的.但此中都包含有接见用户的基本信息. 表1显示的是四条Windows2000服务器的Web日记记录.此中包含:接见日期、时问、用户lP地点、片j户名、服寻器IP地点、方法、所恳求URL资源、服务器响应状态、用户代理、发送字节数等。表1Windows2000服务器的Web日记 date s—port melhod200卜03— GⅡ200103—300653=0080GET G日 C5(User—Agent /papers.htm200Moralla/40+(compatible;+MSIE+50;+Windows+98;+DigExt /index.htm200Internet+Explorer+4.01 /inva/contestt200Mozilla/40+(compatible;+MSIE+501;+Windows+NT+50 /indexhtm200Internet+Explorer+4.01 Web日记文件记录中储存的是用户访同站点信息的原始记录.直接在这些数据上边进行发掘是比较困难的.在使用算法或工具对其分折以前.一定进行顶办理. Web日记发掘的预办理阶段主要分为三步【.】:数据冲洗、用户辨别和会话识别.此中摄重要的是用户辨别。一般的办理流程如图1所示。第一进行数据冲洗.目的在于去除日记中不有关和无效的记录.往常有几种状况:(1一般状况下用户不会显示恳求站点中的图形文件和页面款式文件.这些文件往常是站点依据恳求页面中的连结自动下载的.所以只需CS—uri—stem项是以lPg、ipeg、JPG、JFEG、gi|、GIF 和CSS、IS等结尾的记录都能够删除;(z用户恳求接见失败的记录.这种接见的返回代码为404(没有找到、301(永远删除或500(内部服务器错误等;(3用户恳求方法中不是GEI的记录也能够删除。经过数据冲洗后获得净化的臼志。预办理的第二步是吴强硬士研吃生.主要研宽方向为数据发掘,网络安全等.集继民博士.副教授.主要研究方向为信息融台、模式辨别等.杨万海教授.博士生导师