- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ComputerEngineeringandApplications计算机工程与应用
一 种高效的用户浏览行为采集方法
张玉芳,张艳华 ,熊忠阳
ZHANGYufang,ZHANGYanhua,XIONGZhongyang
重庆大学 计算机学院,重庆 400044
CollegeofComputerScience,ChongqingUniversity,Chongqing400044,China
ZHANG Yu~ng,ZHANG Yanhua,XIONG Zhongyang.Efficientmethodforcollectinguserbrowsingbehaviors.Com —
puterEngineeringandApplications,2013,49(3):126—129.
Abstract:Concerningtheproblem ofdatacollectinginmultiusersandmultiW ebsitesaccessenvironment,anew collecting
andcleaningmethodisproposed.Networksnifferisusedtorecorduserbrowsingbehaviors;combinedwiththetraditionalclean—
ingmethod,anew filteringmethodwhichisbasedontherefererrelationsofrequestsandtheintervalsofrequestsisdesigned,in
ordertoremovethehugenumberofconcomitantrequestswhichgenerateconcomitantlywithuseractivity.Experimentalresults
show thatthetechniquecaneliminateconcomitantrequestsandextractbaserequestswhichexplicitlyoccurbytheuserefficiently.
Thesecanprovideaccuratedatasourceforbuildingtheuserprofile.
Keywords:HypertextTransportProtocol(HTTP)request;browsingbehaviors;datacollecting;datacleaning;filtering
摘 要 :针对在多用户、多Web站点的网络访 问环境下存在的数据采集问题 ,提 出了一种新的数据采集及清理方法。引入
网络嗅探的方式进行浏览行为数据的采集;在结合传统数据清理方法的基础上,提出一种利用HTTP请求间存在的引用和
时间关系来清除HTTP请求产生的大量的非用户显式点击的附带请求。实验结果表 明,该方法可 以有效地采集浏览行为
数据并清除大量的附带请求,抽取出能够反映用户显式点击的页面基请求,为用户浏览行为建模提供准确的数据源。
关键词:超文本传送协议(HTTP)请求;浏览行为;数据采集;数据清理;过滤
文献标志码 :A 中图分类号:TP393 doi:103778q.issn.1002—8331.1108—0269
l 引言 集、客户级采集以及代理级采集”。。但是,这些采集方法
随着互联网上各种数据信息的不断剧增和Internet的 主要应用在单个Web站点的环境下。针对多个用户以及
广泛应用,使得如何从这些位于分布式环境下的海量数据 多个Web站点的网络访问环境,上述方法中可用的只有代
中挖掘和抽取潜在的、用户感兴趣的有用模式和隐藏的知 理级采集 。考虑到代理级采集方法不能准确地确定浏览
识则成为一个重要且非常有意义 的课题。Web使用挖掘正 用户 ,对访 问页面的采集不够全面 ,采集时问不准确等问
是 以此为 目标而产生的,即指能够从服务器、浏览器的日 题。本文则采用网络嗅探这一新的方法进行采集,此方法
志记录和个人信息中 自动发现和预测隐藏在数据中的模 在多用户 、多Web站点的环境下表现更好 。
式信息——用户群体的共同行为、兴趣以及个人用户的检 不论是传统的采集方法 (除客户端浏览器采集方式
文档评论(0)