- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web日志挖掘预处理中的用户识别技术.docx
计算机科学2002V0129N9.4
Web日记发掘预办理中的用户辨别技术
UserIdentificationinthePreprocessmgofWebLogMining
吴.强.梁继民杨万海TP研A
(西安电子科技大学电子工程学院西安7100711AbstractThetasksoftheWeb
LogMiningpreprocessingareanalyzedandafunctionalmodelofittSpresented-Auser
identificationmethodbased011cookietechnologyandextending
WebLogattributesisproposedThemethodcandistinguisheffectivelythemultiple
usersusingthesaF/leoneproxyserverandovertakethedffficuhiescausedbytheerasion
olcookiesstoredontheuser’sfilesystem
KeywordsWebLogMining.Preprocessing,Useridentilication.Cookie
1前言
互联网技术和应用的快速发展使得能够从因特嗍获得的信息量口益剧增,所以
急迫需要一种新的技术从这些信息中快速、实时地发现实用的知识.提升信息的利
用率。作为数掘发掘技术。11研究的一个重要领域.Web日记发掘(WebLogMining
是从服务器日记文件内大批的用户接见记录中抽取实用信息的过程.经过对Weh日
志的剖析.能够结构出用户的行为模式.关于剖析改良网络性能、优化网站的设计和
拓扑结构以及改良公司的市场营销决议等会有极大的帮助o。”。
目前web日记发掘领域的研究已获得了很大的进展.可是目前的研究要点多数
集中于发掘算法的设计、剖析和改良.对日记文件预办理方法的研究相对较少,但是
正确有效地对Web日记文件进行预办理.不单有益于随后的发掘算法剖析.并且关于
最后形成正确靠谱的用户行为模式也是极为重要的.
本文对Web日记发掘预办理所要达成的任哥进行丁剖析,提出r一个Web日记
预办理功能模型;剖析了现有Web口志预办理方法中的用户辨别技术.提出厂一种基
于cc,okie技术和扩大日记属性的用户辨别方法,这种方法不单能够有效地辨别经过
同一代理服务器接见的不一样用户.并且较好地解决了由用户删除本机cookit而产生
的同一用户多次被标示的问题。
2Web日记发掘预办理
一般的Web日记文件中记录的是每个接见用户的信息.不一样服务器的Web日记
记录是不一样的.但此中都包含有接见用户的基本信息.
表1显示的是四条Windows2000服务器的Web日记记录.此中包含:接见日
期、时问、用户lP地点、片j户名、服寻器IP地点、方法、所恳求URL资源、服
务器响应状态、用户代理、发送字节数等。
表1Windows2000服务器的Web日记
date
s—port
melhod200卜03—
GⅡ200103—300653=0080GET
G日
C5(User—Agent
/papers.htm200Moralla/40+(compatible;+MSIE+50;+Windows+98;+DigExt
/index.htm200Internet+Explorer+4.01
/inva/contestt200Mozilla/40+(compatible;+MSIE+501;+Windows+NT+50
/indexhtm200Internet+Explorer+4.01
Web日记文件记录中储存的是用户访同站点信息的原始记录.直接在这些数据
上边进行发掘是比较困难的.在使用算法或工具对其分折以前.一定进行顶办理.
Web日记发掘的预办理阶段主要分为三步【.】:数据冲洗、用户辨别和会话识
别.此中摄重要的是用户辨别。一般的办理流程如图1所示。第一进行数据冲洗.目
的在于去除日记中不有关和无效的记录.往常有几种状况:(1一般状况下用户不会显
示恳求站点中的图形文件和页面款式文件.这些文件往常是站点依据恳求页面中的
连结自动下载的.所以只需CS—uri—stem项是以lPg、ipeg、JPG、JFEG、gi|、GIF
和CSS、IS等结尾的记录都能够删除;(z用户恳求接见失败的记录.这种接见的返回
代码为404(没有找到、301(永远删除或500(内部服务器错误等;(3用户恳求方法中
不是GEI的记录也能够删除。经过数据冲洗后获得净化的臼志。预办理的第二步
是
吴强硬士研吃生.主要研宽方向为数据发掘,网络安全等.集继民博士.副教授.主
要研究方向为信息融台、模式辨别等.杨万海教授.博士生导师
您可能关注的文档
最近下载
- 医务人员收药品回扣检讨书.docx VIP
- 专题:二次函数与方程不等式(含答案).docx VIP
- 活动一栽培番茄,观察并描绘其一生的变化说课稿-2024-2025学年北师大版(2024)生物七年级上册.docx VIP
- 制造业数字化转型解决方案(41页 PPT).pptx VIP
- IbaAnalyzer中文版用户手册.pdf VIP
- 2024年金华开发区国有企业工作人员招聘笔试真题.docx VIP
- 物业新接管项目培训..ppt VIP
- 2024年北师大版七年级上册生物同步教案跨学科实践活动 活动一栽培番茄,观察并描绘其一生的变化.docx VIP
- 糖尿病患者自我血糖监测与药物治疗方案.doc VIP
- 夫妻和解和好协议书.docx VIP
文档评论(0)