- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
改进Web日志挖掘数据预处理方法研究
改进Web日志挖掘数据预处理方法研究
摘#8195;要 Web日志挖掘中的数据预处理按处理流程,分为数据收集、数据清洗、用户识别、会话识别、路径补充、事务识别6步。本文对会话的特点对预处理算法进行改进,直接由会话得到事务,不需要经过路径补充,从而简化处理过程,增强后期挖掘的正确性。
关键词 Web日志挖掘;预处理;事务
中图分类号 TP 文献标识码 A 文章编号 1673-9671-(2011)112-0128-01
Web日志挖掘属于数据挖掘的一种,它是对用户访问Web时在服务器端留下的访问记录(即Web日志)进行分析处理,从中得到用户感兴趣的信息或模式。并以此作为依据来改善网站结构,更好的满足不同用户的需求。数据挖掘对数据的格式是要求严格的,而Web日志往往达不到该标准,直接处理会产生错误或无意义的工作,因此在挖掘前必须进行预处理,必须将Web日志转化为传统的数据挖掘方法能够处理的
数据。
1 传统的方法
Web日志挖掘的对象是Web日志,挖掘的主要目的是进行用户聚类,聚类的依据是页面访问序列,因此只考虑用户请求的页面,在请求方法当中只选取GET方法的。日志中请求错误的、无用的信息记录在进行挖掘时都应该删除。对数据整合,规范化,形成事务数据库,为挖掘做准备。按处理的先后顺序,分6步来完成,它们分别是:数据收集、数据清洗、用户识别、会话识别、路径补充、事务识别。
2 改进的方法
通过分析上述方法,同时结合实际情况:用户访问网站中的页面可以从网站根目录进来,也可能从历史纪录直接进入到某个页面,不难发现,能够反映用户真实兴趣的会话序列往往需要将路径补充完整,然后进行分割才能得到,过程较为复杂,而且补充路径的过程也比较费时。若是简化过程,直接由会话序列得到事务则将大大提高算法的效率。
2.1 设计思想
通过分析网站的结构,不难发现它是一棵有向树,为了处理方便可以看成一棵普通的树,而树中的一个结点就相当于一个页面。当浏览到网站时就相当于从树根出发去遍历树中的结点,当到达分枝的叶子结点时,就认为已经浏览到了边界,这时要再访问别的页面就需要回退,即可认定新的会话开始了;或者当出现页面序列不连续,也可作同样的处理。整个过程和树的深度遍历算法的处理过程非常相似,因此将两者相结合,直接得到会话事务。从数据存储的角度考虑,采用链式存储方式,同时将进一步将树转化为二叉树,继而再作相关的处理。
2.2 算法描述
根据上述分析,得出算法的执行过程如下:1)初始化。2)将会话路径序列中的页面结点与二叉树的根结点比较,如果相等就让该结点进栈,同时将其保存到路径Route中,指针指向该结点的左孩子。重复第二步,直至访问到叶子结点,如果该结点是左孩子,则将路径Route中的数据存入相应的数据表中,否则回退到第二步的结尾,指针指向该结点的右孩子,再次比较,如果不相等,就让该结点从栈中弹出,同时在路径中作删除。重复第二步直到会话序列中的页面结点全部访问完。
算法步骤描述如下:初始化空栈LinkStack,存放出现在Conversation中的页面序列。指针Tr_pointer指向二叉树的树根TRoot,指针S_pointer指向Conversation。k为标志变量,表示是否在树中找到了浏览路径的第一个结点。
对于所有的会话序列Conversation。
do{ if(k==0)
#8195;#8194; { if(Tr_pointer!=NULL)
#8195;#8195;#8195;#8195;{ if(Tr_pointer-data==*S_pointer)
#8195;#8195;#8195;#8195;#8195;#8195;#8194;{ *S_pointer++;k=1;}
#8195;#8195;#8195;#8195;#8195;#8195;#8195;push(LinkStack,Tr_pointer);
#8195;#8195;#8195;#8195;#8195;#8195;#8195;Tr_point=Tr_pointer-Tr_lchlid;}
#8195;#8195;#8195;#8195;#8195;Else
#8195;#8195;#8195;#8195;#8195;#8195;#8195;{pop(LinkStack,Tr_pointer);
#8195;#8195;#8195;#8195;#8195;#8195;#8195;TR_POINTER=Tr_pointer-Tr_rchild;}
#8195;#8194;#8195;Else if(Tr_pointer==NU
您可能关注的文档
- 改良局部切除术治疗十二指肠乳头肿瘤临床价值.doc
- 改良岛状皮瓣在手部组织缺损与手指修复中临床应用.doc
- 改良尿道板纵切卷管法在治疗小儿尿道下裂中应用价值分析.doc
- 改良封闭负压辅助闭合技术联合干细胞移植治疗难愈合性伤口研究.doc
- 改良布朗氏架在股骨粗隆间骨折保守治疗中应用.doc
- 改良平片无张力疝修补术在腹股沟疝中应用.doc
- 改良小切口白内障摘除及人工晶状体植入联合青光眼复合小梁切除术临床疗效观察.doc
- 改良式B―Lynch缝合术在剖宫产产后出血治疗中应用价值.doc
- 改良式B―Lynch缝合术对剖宫产术中子宫收缩乏力性出血作用.doc
- 改良小夹板外固定治疗桡骨远端伸直型骨折效果探析.doc
原创力文档


文档评论(0)