基于web针对网页优化数据挖掘技术.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于web针对网页优化数据挖掘技术

基于web针对网页优化数据挖掘技术   摘 要:首先分析了Web数据挖掘的基本概念以及发展状况,然后介绍了Web数据的使用模式挖掘,并重点对关联规则挖掘进行研究,研究了关联规则挖掘中的apriori算法,最后利用apriori算法对网站数据进行实验,来进行检测,通过对实验结果的分析关联规则挖掘在页面优化设置中的作用。   关键词:数据挖掘 web挖掘 关联规则挖掘 页面优化设置   中图分类号:TP39 文献标识码:A 文章编号:1007-3973(2012)002-071-02   1 概述    数据挖掘就是从存放的海量的数据当中经过处理之后得到有用的具有价值的知识,随着现代网络技术的不断发展和丰富,存在于互联网的网页数据不断的累积,而且部分在不同的区域,如何利用数据挖掘技术从这些巨量的数据当中寻找具有有价值的信息是目前人们需要解决的课题之一①。    在数据挖掘技术当中Web挖掘是热门研究的领域,是在对海量互联网数据进行一定的分析之后,利用数据挖掘的算法进行有用知识的提取完成挖掘过程②。与其他的数据挖掘不同的是,Web挖掘面对的数据具有很大的不一样,例如有些数据是非结构的,半结构的,这些是数据是传统数据无法保存的,Web数据挖掘就是需要解决非结构化的数据的信息处理③。   2 Web数据的使用模式挖掘    一般来说,用户通过数据挖掘可以实现二个重要的功能就是描述和预测。描述的数据挖掘是对数据库当中的数据的普遍的特性,而预测性的数据挖掘则是在对数据的一般描述的基础上进行推测,对数据的可能性进行预测④。另外,对于Web数据挖掘的使用模式来说也有着多种不同的访问模式的挖掘技术,例如浏览路径分析,关联规则和序列模式发现等⑤。在这里主要关注于关联规则方面的数据挖掘。    在关联规则挖掘当中,就是对发生交易数据库中不同商品项之间的内在的规律进行发现,这些内在的规律反映了顾客购买商品这个行为的模式,通过对交易数据的分析可以发现对于用户是非常有用的信息,从而可以在一定程度上帮助用户进行购物行为的分析、商品广告设计、商品货架设计以及对顾客用户的分类等,可以说关联规则在商业行为的分析当中具有广??的应用。在关联规则当中的主要实现的是web数据挖掘的经典算法Apriori算法,Apriori算法就是对目标数据库进行扫描操作,对每个目标向出现的次数进行计数,收集在这些目标项构成频繁项目序列集L1,但这个频繁项目序列集必须不得低于最少支持度阀值;接着,对这个频繁项目序列集L1链接操作得到候选工作集C1;利用这个候选工作集C1对数据库再次进行扫描操作,从而计算得到C1中每个项目集的支持,如果不低于最小支持度阀值的项目,则记录下来构成频繁项目序列集L2;不断的重复上面的过程,直到不再有新的候选产生为止。在实现上述的Apriori算法中需要强调的是频繁项集的任何非空子集必定也是频繁的,如果项集{a,b,c}是频繁的,那么项集{a,b}也一定是频繁的。这一性质极大的降低了候选项集求解的规模,提高了算法的效率,尤其当K=1,2时。web数据挖掘的经典算法apriori算法具有的频繁项集的任何非空真子集必定也是频繁的,非频繁项集的任何超集必定不是频繁的这样的性质。   3 关联规则挖掘的实验与应用   3.1 关联规则挖掘实验    实验采用的数据是微软网站(www.省略)在1998年二月一个星期内的访问数据,经过随机筛选后的得到的5000位用户的访问数据,共涉及294个页面,为方便实现,将页面进行编号,取最小值支持度minsupport=0.03,应用apriori算法得到频繁项集,如图1所示。      图1 频繁项集挖掘结果    共得到32个频繁项集,对于k1的相集取最小置信度minconfidence=0.4对频繁项集产生的强关联规则进行挖掘,得到5条结果,按支持度大小排列,可得表1。   表1 强关联规则挖掘结果      3.2 实验结果分析    根据关联规则的定义可以看出,支持度反映出了一个项集在全部事物中出现的 频繁程度,由图1可以看出,页面1008(/msdownload)的支持度是最高的0.335,也就是说明,有33.5%的用户对其进行了访问,其次是1034(/ie)页面,有28.8%的用户对其进行了访问,有26.5%的用户访问了1004(/search)页面,依次类推。网站页面之间的访问模式的支持度反映了网站用户对网站页面访问路径的频繁程度。由图1可分析,从1008(/msdownload)到1034(/ie)访问模式支持度最高16.5%,是最频繁的访问模式,然后是1009(/windows)到1008(/msdownload)的访问模式有7.4%,依次类推。    在关联规则中,可以得

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档