- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web访问挖掘预处理的用户识别算法.pdf
!# 访问挖掘预处理的用户识别算法
李 煊 庄镇泉
(中国科技大学电子科学与技术系,合肥 !D!E )
:
4F@2.3 3.G2+H@2.3#1,9#’I#9+
摘 要 ’( 访问挖掘是目前网上智能信息检索和电子商务的主要研究课题之一。该文主要对’( 挖掘技术中的预处
理过程进行了研究,着重分析了其中的用户识别方法,并给出了一个用户识别的通用算法。
关键词 ’( 挖掘 预处理 用户识别
文章编号 ( ) 文献标识码 中图分类号
%!FJDD%F !! $F %$DFB K L?DMD
$% ’()*+,+-.*+/) 012/+*34 +) 56/-%%+)2 /, !# $%.2 7+)+)2
8+ 9:.) ;3:.)2 ;3):.)
( ,
N’:27,@’+, * 43’9,7*+.9 O9.’+9’ 2+I L’9;+*3*/P 0+.Q’71.,P *
, )
O9.’+9’ 2+I L’9;+*3*/P * );.+2 R’’. !D!E
0#%*.-* : ’( 12/’ @.+.+/ .1 *+’ * ,;’ @2.+ 7’1’279; I*@2.+1 .+ .+,’33./’+, .+*7@2,.*+ 7’,7.’Q23 1P1,’@ 2+I
,
’3’9,7*+.9 9*@@’79’#L;.1 :2:’7 2+23PS’1 ,;’ :7’:7*9’11.+/ * T’( 12/’ @.+.+/ ’1:’9.233P ,;’ @’,;*I * 1’7
,
.I’+,..92,.*+ 2+I :7’1’+,1 2 /’+’723 23/*7.,;@ * 1’7 .I’+,..92,.*+#
: , ,
=?/(% ’( @.+.+/ ?7’:7*9’11.+/ 01’7 .I’+,..92,.*+
% 引言 商业和浏览访问的大部分信息都记录在3*/ 文件中,其它类型
的信息数据还包括引用 文件、用户登记信息数据及通过工
所谓’( 挖掘,是指将数据挖掘技术用于从’( 数据中 3*/
发现知识。目前的’( 挖掘主要分为两大类:一个是’( 内 具(如)86 197.:,1 )收集的统计数据。
由于访问 文件中包含了“噪声”、冗余数据或者本身记
容挖掘( ),即从 上和在线数据库中 3*/
’( )*+,’+, -.+.+/
自动搜索有用的信息和资源,进行重组、分类、满足不同用户的 录得并不完全(主要是由于浏览器从本机的)29;’ 中读取数据
信息需求。另一个是 访问挖掘( ),即从 不会在服务器端的3*/ 中体现)。所以,在进行真正意义上的
文档评论(0)