基于Web用户行为模式挖掘研究.docVIP

下载本文档

20
0
约2.95千字
约 7页
2018-08-28 发布于福建
举报
版权申诉

基于Web用户行为模式挖掘研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Web用户行为模式挖掘研究

基于Web用户行为模式挖掘研究　　[摘要]随着互联网的飞速发展，互联网和人们日常的生活、工作、学习等各方面的结合越来越紧密，Web用户行为模式挖掘能更好的使互联网服务于用户（通过Web个性化服务等方式）。目前，Web用户行为模式挖掘仍然是一个新兴的研究领域，从模式挖掘结构体系、模式挖掘过程，模式挖掘应用等方面对Web用户行为模式挖掘中关键问题的研究进行探讨。　　[关键词]数据挖掘 Web挖掘 Web用户行为模式挖掘　　中图分类号：TP3文献标识码：A文章编号：1671－7597（2009）0520034－01 　　　　一、引言　　　　随着Internet的飞速发展，网络上的数据资源越来越丰富，其中蕴涵着巨大潜在价值的信息。如何从浩瀚如烟的网络信息中快速准确地发现知识，如何高效利用网络资源服务于用户，是互联网用户迫切需要解决的一个重要课题。将传统的数据挖掘技术与Web技术相结合，进行Web挖掘。根据用户在浏览站点时的行为，掌握用户使用互联网的规律性特点，将挖掘出的用户访问模式应用于网站上，可以提高站点的服务质量，方便用户的使用。　　　　二、Web数据挖掘　　　　Web挖掘是数据挖掘在Web上的应用，指从大量非结构化、异构的Web信息资源中发现有效的、新颖的、潜在可用的及最终可理解的知识（包括概念、模式、规则、规律、约束及可视化等形式）的过程，涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域，是一项综合技术。　　根据关注对象的不同，Web 挖掘一般可分为Web内容挖掘、Web结构挖掘和Web访问模式挖掘。Web访问模式挖掘是通过处理Web使用数据，以发现用户的访问模式，理解用户的行为。用户访问模式的挖掘过程就是通过数据挖掘技术从Web使用数据中自动抽取访问模式的过程。　　　　三、Web用户行为模式挖掘结构　　　　目前的Web用户行为模式挖掘系统结构差别较大，但基本的Web用户行为模式挖掘结构由数据源、数据预处理、模式挖掘、模式分析和模式应用几部分构成。　　Web用户行为模式挖掘基本体系结构中所涉及原始文件主要包括 Web服务器日志等；所进行的数据预处理过程一般包括数据清理、用户识别、会话识别、路径补充、事务识别等；对数据预处理的结果（事务文件等）进行模式挖掘可采用的技术包括统计分析、关联规则、序列模式、聚类/分类、依赖性建模等；对模式挖掘得出的结果即规则/模式可进行olap等查询和分析评估；对于有效的、用户感兴趣的模式可用于具体的应用比如个性化服务等。　　　　四、Web用户行为模式挖掘过程　　　　（一）数据预处理　　在Web挖掘中，主要分析的数据源是服务器日志，但是由于服务器日志记录的数据并不完整，直接在其上进行挖掘非常困难。进行预处理的结果直接影响到挖掘算法产生的规则与模式。主要包括以下步骤：（1）数据转换：将原始日志文件导入数据库。（2）数据清理：删除与分析目的无关的记录。（3）用户识别：将用户和请示的页面相关联。（4）会话识别：将用户在一段时间内的请示页面分解成能反映实际浏览习惯的用户会话。（5）路径补充：将本地或者代理服务器中缓存而没有被日志记录的请求页面增加到会话中。　　（二）模式挖掘　　1．通过路径分析技术分析访问者的访问路径。路径分析技术利用链接日志文件项中访问者的访问路径，并将路径按时间排序。可以得到网站、特定频道的页面阅览数、用户会话数、页面浏览时间、最常访问页面等基本数据。其统计分析结果是理解、应用后续挖掘出的模式的一个基础。　　2．通过关联规则分析挖掘出频繁页面集。挖掘关联规则的大多数算法是基于Apriori算法的。其主要思路是找出事务中频繁（满足规定的最小支持度的对象可以认为是频繁的）同时出现的页面对象，在算法中称为频繁集，之后在频繁集中找出满足置信度要求的规则，这些规则就是挖掘出的关联规则。　　3．通过聚类分析挖掘出具有相似特征的客户或者页面。聚类分析主要作用于具有类似特征或行为的对象。其中的页面聚类则多应用在搜索引擎方面。对于具有相似喜好的客户，企业可以为其动态的提供个性化服务。常用的算法主要有划分方法、基于密度的方法等。　　4．通过分类和预测。按照用户的特征数据或者行为数据将用户划分到特定的类别中，这对于为用户提供个性化服务是一个极好的选择。然后依赖关系建模建立能够描述Web领域中变量之间的依赖关系模型，比如建立一个描述用户在电子商务网站中消费的模型这有助于将潜在用户转化为真正的消费用户。　　（三）模式应用　　1．网站设计的优化。根据Web用户行为模式挖掘结果，网站所有者可据实际浏览情况调整网站的网页链接结构、内容和建立自适应网站，对网站进行优化，从而更好地为用户服务。