一种高效的用户浏览行为采集方法.pdfVIP

下载本文档

57
0
约1.33万字
约 4页
2017-09-13 发布于河北
举报
版权申诉

一种高效的用户浏览行为采集方法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

ComputerEngineeringandApplications计算机工程与应用一种高效的用户浏览行为采集方法张玉芳，张艳华，熊忠阳 ZHANGYufang，ZHANGYanhua，XIONGZhongyang 重庆大学计算机学院，重庆 400044 CollegeofComputerScience，ChongqingUniversity,Chongqing400044，China ZHANG Yu~ng，ZHANG Yanhua，XIONG Zhongyang．Efficientmethodforcollectinguserbrowsingbehaviors．Com — puterEngineeringandApplications，2013，49(3)：126—129． Abstract：Concerningtheproblem ofdatacollectinginmultiusersandmultiW ebsitesaccessenvironment，anew collecting andcleaningmethodisproposed．Networksnifferisusedtorecorduserbrowsingbehaviors；combinedwiththetraditionalclean— ingmethod，anew filteringmethodwhichisbasedontherefererrelationsofrequestsandtheintervalsofrequestsisdesigned，in ordertoremovethehugenumberofconcomitantrequestswhichgenerateconcomitantlywithuseractivity．Experimentalresults show thatthetechniquecaneliminateconcomitantrequestsandextractbaserequestswhichexplicitlyoccurbytheuserefficiently． Thesecanprovideaccuratedatasourceforbuildingtheuserprofile． Keywords：HypertextTransportProtocol(HTTP)request；browsingbehaviors；datacollecting；datacleaning；filtering 摘要：针对在多用户、多Web站点的网络访问环境下存在的数据采集问题，提出了一种新的数据采集及清理方法。引入网络嗅探的方式进行浏览行为数据的采集；在结合传统数据清理方法的基础上，提出一种利用HTTP请求间存在的引用和时间关系来清除HTTP请求产生的大量的非用户显式点击的附带请求。实验结果表明，该方法可以有效地采集浏览行为数据并清除大量的附带请求，抽取出能够反映用户显式点击的页面基请求，为用户浏览行为建模提供准确的数据源。关键词：超文本传送协议(HTTP)请求；浏览行为；数据采集；数据清理；过滤文献标志码：A 中图分类号：TP393 doi：103778q．issn．1002—8331．1108—0269 l 引言集、客户级采集以及代理级采集”。。但是，这些采集方法随着互联网上各种数据信息的不断剧增和Internet的主要应用在单个Web站点的环境下。针对多个用户以及广泛应用，使得如何从这些位于分布式环境下的海量数据多个Web站点的网络访问环境，上述方法中可用的只有代中挖掘和抽取潜在的、用户感兴趣的有用模式和隐藏的知理级采集。考虑到代理级采集方法不能准确地确定浏览识则成为一个重要且非常有意义的课题。Web使用挖掘正用户，对访问页面的采集不够全面，采集时问不准确等问是以此为目标而产生的，即指能够从服务器、浏览器的日题。本文则采用网络嗅探这一新的方法进行采集，此方法志记录和个人信息中自动发现和预测隐藏在数据中的模在多用户、多Web站点的环境下表现更好。式信息——用户群体的共同行为、兴趣以及个人用户的检不论是传统的采集方法 (除客户端浏览器采集方式