基于关联规则Web使用挖掘研究.docVIP

下载本文档

1
0
约2.57千字
约 6页
2018-06-20 发布于福建
举报
版权申诉

基于关联规则Web使用挖掘研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于关联规则Web使用挖掘研究

基于关联规则Web使用挖掘研究　　【摘要】数据挖掘技术能使我们从模糊的、不完全的、随机的、大量的数据中，提取潜在的有用的信息和知识。经过20几年的发展，数据挖掘已取得了巨大成就。Web挖掘是数据挖掘技术的一个重要分支，它是随着人工智能技术、数据库技术和网络技术的发展而提出来的。本文针对Web日志挖掘的特性，对关联规则的挖掘算法进行深入的研究，系统地探讨了关联规则挖掘算法在Web日志挖掘的应用。利用优化Apriori算法，使之更具有效率。　　【关键词】数据挖掘；Web使用挖掘；关联规则；Apriori算法　　1.引言　　随着网络技术的不断发展，用户可以访问到的信息越来越多。如何快速地找到自己所需要的信息？这是随着网络技术的迅速发展所带来的一个新问题。为了找到自己所需要的信息，人们大多数通过搜索引擎进行检索，但由于许多搜索引擎主要是以关键字搜索为主，因此，往往用户有时候搜索出来的资料和自己所需要的信息之间存在着一定的差异。在用户访问网络的过程中，访问模式隐含了他们的爱好、兴趣等信息。为了分析、跟踪出这些信息，搜索出符合用户兴趣爱好的信息，Web数据挖掘应运而生。　　2.Web数据挖掘　　2.1 Web数据挖掘的含义　　Web数据挖掘是利用数据挖掘、文本挖掘、机器学习等技术从Web页面数据、日志数据、超链接关系中发现感兴趣的、潜在的规则、模式、知识[3]。Web挖掘的目标是从Web的超链接结构、网页内容和使用日志中探寻出有用的信息[2]。　　Web挖掘在很多方面发挥了重要作用，如：挖掘搜索引擎的结构、分析微博热点话题、探究访问者访问路径、个性化推荐等。但由于网络上的数据是非结构化的，因此传统的数据挖掘技术在Web数据挖掘上会显得力不从心。　　2.2 Web数据挖掘的分类　　根据挖掘对象的不同，Web数据挖掘通常可划分为以下三种类型：针对内容的Web挖掘（Web内容挖掘）、针对结构的Web挖掘（Web结构挖掘）、针对使用记录的Web挖掘（Web使用挖掘）。　　3.Web使用挖掘　　3.1 Web使用挖掘的含义　　Web使用挖掘是从网站服务器端的Web日志文件中找出有潜在的、有价值的信息。通过分析保存在Web日志文件中的信息，??：用户访问时间、访问路径、点击的超链接、访问方式等数据信息，最终发现该用户感兴趣的网络访问模式。　　3.2 Web服务器日志　　学习者访问站点时每个页面的请求信息记录在Web服务器日志里，这些信息在Web日志文件中以一条条记录储存，其中包含了他们访问站点的详细信息，比如：访问时间、用户ID、用户IP地址、用户请求访问的URL页面、请求方法、传输协议、传输字节数、用户代理、错误代码等属性。通常Web日志的格式有：通用日志格式CLF和扩展日志格式ECLF，如表1。　　ECLF格式的日志比CLF格式的日志多了“Referrer”和“Agent”两个字段。　　3.3 Web使用挖掘的过程　　一般来说，Web日志挖掘包括：数据采集、数据预处理、模式识别和对挖掘出来的模式进行分析这四个阶段。　　3.3.1 数据采集　　数据采集是Web使用挖掘的第一阶段，这一阶段的主要任务是获取数据。一般可以在客户端、服务器端、代理服务器端采集数据。从服务器端采集数据是一种比较常用的方式。　　3.3.2 数据预处理　　数据预处理是Web日志挖掘过程中非常关键的一步。它可以清除噪声数据、消除数据的残缺性、纠正数据的不一致性。Web日志挖掘中的数据预处理通常分为五个步骤：数据清洗、用户识别、会话识别、路径补充、事务识别。每个步骤的任务如下：　　(1)数据清洗：主要工作是删除原始Web服务器日志中与挖掘要求无关的数据，如：①URL扩展名：日志中文件中后缀为jpg、gif、jpeg、css、js等。这些记录对于挖掘来说是不需要的；对于用户来说，一般浏览的页面是后缀为.html和.htm的文本页面，所以应该将后缀不需要的记录予以删除。②状态码：过滤掉以4、5开头的信息。③删除以“GET”除外的访问方式完成的服务。　　(2)用户识别：主要工作是从Web服务器日志中区分出不同的用户。由于代理服务器、本地缓存和防火墙的存在，有效识别用户变得比较复杂，可以使用启发式规则来识别用户：　　①若用户具有不同的IP地址，则认为是不同的用户。　　②若用户具有相同的IP地址，但代理服务器不同，则可认为是两个不同的用户。　　③结合访问日志和网站拓扑结构，构造用户的浏览路径。若请求的页面与浏览的页面没有任何链接关系，则认为存在多个用户。　　(3)会话识别：主要工作是将用户的访问记录划分为单个会话。访问站点的一个会话是按被访问时间排序的网页序列组成，也可认为是从一个用户进入网站的时间起到他离开网站的时间止的这段时间