Web使用挖掘技术分析与研究.docVIP

下载本文档

6
0
约1.18万字
约 23页
2018-08-11 发布于福建
举报
版权申诉

Web使用挖掘技术分析与研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web使用挖掘技术分析与研究

Web使用挖掘技术分析与研究　　摘要：首先给出Web使用挖掘的定义和完整模型框架；然后对Web使用挖掘中主要步骤的最新研究进展状况作了详细的阐述和分析，其中包括数据采集、数据预处理、模式发现和模式分析；最后对未来的研究重点进行了展望。　　关键词：Web挖掘; Web使用挖掘;数据预处理; 模式发现; 模式分析　　中图分类号：TP393文献标志码：A 　　文章编号：1001－3695(2008)01－0029－04 　　　　Web上的数据正以每天新增一百万个页面的速度增长，页面数目已超过10亿[1]。如何从这些位于分布式环境中的海量数据挖掘和抽取潜在的、用户感兴趣的有用模式和隐藏的知识成为一个重要而非常有意义的课题。Web挖掘技术正是以此为目标应运而生的。Web挖掘技术将传统的数据挖掘技术与Web技术结合起来[2~4]，并综合运用了统计学、计算机网络、数据库与数据仓库、可视化等众多领域的技术。　　定义1Web挖掘是指从大量Web文档结构和使用的集合C 中发现隐含的模式p。如果将C看做输入，p看做输出,那么Web挖掘的过程就是从输入到输出的一个映射： ?│?: C → p。?? 　　一般地，Web挖掘分为三类[5]：Web内容挖掘、Web结构挖掘和Web使用挖掘。目前国际上对Web使用挖掘的研究比较多。WUM[6~8]是指能够从服务器、浏览器端的日志记录和用户的个人信息中自动发现和预测隐藏在数据中的模式信息――用户群体的共同行为、兴趣以及个人用户的检索偏好、习惯等。?? 　　　　1Web使用挖掘的基本框架?? 　　　　图1给出了一个WUM比较完善的系统框架模型图。从图中可以看出它包含了数据采集、数据预处理、模式发现和模式分析四个主要的阶段。?? 　　1．1数据采集?? 　　在WUM中，由于HTTP的无状态连接特性而很难得到准确的用户浏览信息。Jaideep Srivastava等人[9]和Cyrus Shahabi等人[10]提出从Web的结构出发，多层次地进行Web 站点信息采集。?? 　　在WUM中,使用数据的采集主要可以分为以下几种形式：?? 　　a）服务器端的数据采集。主要包括从Web 服务器日志中收集和从网络监视器中收集。Web服务器日志文件是执行WUM的重要数据来源。该日志文件记录了用户访问站点的数据。每当站点上的网页被访问一次，Web服务器就在日志文件中增加一条相应的记录。如图2 所示的就是一条典型的 ECLF[11](extended common log file，扩展日志格式)的记录和提取出的相关信息。当然，Web服务器日志文件还可以以其他的格式存储,如CLF（common log file，通用日志格式) 或其他日志格式有NCSA、CERN、APACHE[12]。这些记录数据反映了多个用户(可能同时)对Web站点(单站点)的(存取)访问行为。由于Web环境中存在多级别的缓存（如用户的本地缓存和代理服务器缓存）和防火墙, 用户浏览缓存的页面不在服务器端日志上记录, 防火墙使得不同的用户请求在Web服务器的日志中记录的均是防火墙的IP地址, 所以日志中的网站使用数据并不完全可靠(未采集到所有访问页面、采集时间不够准确、浏览用户的确定不够准确)。用服务器端日志数据进?┬?WUM是不完全可靠的，还必须依靠其他使用数据收集方法。?? 　　3[25/Dec/2003:05:00:00 +0800] 　　GET /piclib/419_11.htmpic/ Mozilla/4.0(compatible,MSIE 5.0; Windows 98; DigExt) 　　IP地址3 　　访问时间25/Dec/2003:05:00:00 　　访问页面/piclib/419_11.html 　　Web服务器对于该请?で蠓祷氐淖刺?信息200?? 　　返回给客户端的内容大小15 763 Byte 　　该请求的引用地址/pic/ 　　用户客户端类型??Mozilla/4.0(compatible；MSIE 5.0;??Windows 98;DigExt) 　　图2Web服务器ECLF记录格式及提取的信息?? 　　b)应用服务器端的数据采集。这种数据采集方法可以利用应用服务器上的应用程序（如CGI程序）来记录用户的个人信息；同时也可以通过自定义的格式动态记录用户的浏览信息。每次用户进行访问时先进行身份验证，然后由CGI程序记录用户全部的浏览过程。这种应用服务器级的采集方法与Web服务器级的数据采集方法相比，在用户确定方面的准确性高，但是大量的应用程序会使系统的效率很低。?? 　　c）客户端的数据采集。客户端的浏览路径采集比服务器端的采集更具优越性。