基于Web日志挖掘的策略研究.docVIP

下载本文档

2
0
约4.87千字
约 7页
2018-03-10 发布于北京
举报
版权申诉

基于Web日志挖掘的策略研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Web日志挖掘的策略研究　　摘要: Web日志挖掘是对Web服务器上的日志进行挖掘分析，它能识别和发现客户的行为特点和偏好以及潜在的购买意向，能促进企业改进电子商务网站的建设，及时调整企业的客户关系和营销策略，这是企业提高核心竞争力的重要策略。　　关键词：Web日志挖掘；关联规则挖掘；FP-Growth 算法　　中图分类号：TP311文献标识码：A文章编号：1009-3044(2011)31-7583-02 　　Web的数据挖掘包括基于Web内容的挖掘、Web结构的挖掘和Web使用记录的挖掘三类，其中Web使用记录挖掘也叫Web日志挖掘，它是Web数据挖掘的重要应用，在现代的电子商务中有着巨大的应用空间。由于在Web服务器日志文件中完整的记录了客户在网站上的每一点击，保存了大量与用户行为有关的数据，所以Web日志挖掘是把Web服务器上的日志文件作为数据源，对其进行挖掘分析，找出客户的行为模式和偏好以及潜在的购买意向，最终促进企业及时调整营销策略，改进电子商务网站建设，或为客户添加个性化服务等。　　Web日志挖掘的过程主要分为预处理、模式发现和模式分析三个阶段。在挖掘过程中，预处理和模式发现是极其重要的内容，直接关系到挖掘效率。　　1 数据预处理　　Web日志挖掘首先要对日志中的原始数据进行预处理，因为对于一个电子商务网站来说， Web 服务器会将每次的访问信息都记录到一个日志文件中,这些信息即所谓的点击流数据。这些原始日志记录并不适于挖掘，必须进行适当的处理，去除无用的记录。预处理过程包括：　　1）数据净化：用来对原始的Web日志记录进行清洗过滤，删掉Web服务器日志中与挖掘算法无关的数据。具体包括删除与数据挖掘任务不相关的数据，合并某些记录，处理用户请求页面时发生错误的记录等内容。　　2）用户识别：是指从Web日志记录中找出Web站点的具体用户，包括用户的IP地址，操作系统和浏览器类型等数据，它用来识别不同的用户，得到正确的用户会话，为进一步的数据挖掘算法提供净化数据。但是随着企业Intranet的普及和防火墙的应用，许多用户是通过代理服务器访问网络的, 这使得用户识别变得非常复杂。例如，防火墙的使用多个不同用户的IP都是防火墙的IP，本地缓存使请求记录不能被服务器记录，这些都给用户识别带来了困难。目前识别用户主要通过用户IP 地址分析方式、站点拓扑结构分析方式、基于Cookie 技术的识别方式、重写URL的用户跟踪等方式来确定用户身份。　　3）会话识别：会话是指用户在一次访问网站期间从进入网站到离开网站所进行的一系列活动。在跨度时间段较大的Web服务器日志中，用户可能多次访问了该站点，会话识别的任务是把属于同一用户的同一次访问请求识别出来。目前常用的会话识别方法主要包括基于时间阈值的识别方法和是基于用户访问页面时的参引页面的识别方法。　　4）路径补充：由于缓存等原因，服务器的日志不能完全记录用户的访问行为，可能会遗漏一些重要的页面请求。路径补充就是将这些遗漏的请求补充到用户会话中，将访问路径补全，从而全面的反应用户的访问过程。　　2 模式发现中关联规则挖掘算法设计　　模式发现是指运用各种算法和技术对预处理后的数据进行挖掘，获取用户的行为模式，然后根据发现的用户行为模式改进站点的设计和开展个性化的信息服务。常用的技术有：关联规则、路径分析和分类聚类等。其中关联规则挖掘是数据挖掘领域研究的重要课题，它用于发现隐藏在大型数据集中的令人感兴趣的联系，例如通过发现顾客放入购物篮中不同商品之间的联系，从而分析顾客的购买习惯，帮助企业制定营销策略，所以也被称为购物篮分析。关联规则挖掘的任务是高效快速地找出数据集中的频繁项集，这是衡量关联数据挖掘算法效率的标准。　　以下是关联规则的定义：　　设I={i1，i2，…，im}是项的集合，事务数据库DB=，其中的每个事务T是项的集合，T#8838;I，并且每个事务T都有一个唯一的标识符TID。如果X#8838;T，则称X是一个项集，如果X中有k个元素，则称X为k-项集。关联规则是形如A#8658;B（含义为A出现的同时也导致B出现）的蕴含式，其中，A#8834;I，B#8834;I且A∩B=#8709;。规则A#8658;B在事务数据库DB中的支持度，是DB中包含A∪B的事务占事务总数的百分比，即概率P(A∪B)。一个项集X的支持度一般用sup(X)表示。规则A#8658;B在DB中的置信度，是在DB中的那些包含A的事务中，B也同时出现的概率，即条件概率P(B|A)。对于一个项集X，如果其支持度大于等于用户给定的阈值MinSup，则称X为频繁项集或频繁模式。　　在设计关联规则挖掘算法中主要考虑的问题有以下两个：一是减少I/O操作