- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web数据挖掘技术研究
Web数据挖掘技术研究
摘要:Internet应用的普及使得数据挖掘技术的重点已经从传统的基于数据库的应用转移到了基于Web的应用。本文就Web挖掘技术的概念、分类、研究现状及其相关实现技术做了详细的阐述,并在此基础上指出其发展方向和趋势。
关键词:Web内容挖掘;Web结构挖掘;Web使用记录挖掘;数据挖掘
1 引言
Internet上包括了大量的Web站点,并且这些站点的数目呈指数级增长。虽然Internet上有海量的数据,但由于Web是无结构的、动态的,并且Web页面的复杂度远远超过了文本文档以及数据库数据,因此人们想要找到自己感兴趣的信息犹如大海捞针一般。而Web面对的是一个广泛的形形色色的用户群体,各个用户可以有不同的背景、兴趣和使用目的,对于任何单个用户来说,Web上的信息只有很少一部分是相关的或有用的,而其余信息对用户来说则是不感兴趣的,而且会淹没所希望得到的搜索结果。解决这一问题的途径就是将传统的数据挖掘技术与Web结合起来,进行Web数据挖掘。
2 Web挖掘定义
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中发现隐含的、规律性的、人们事先未知的,但又是潜在有用的并且最终可理解的信息和知识的非平凡过程。
Web挖掘是从数据挖掘发展而来的,是指将数据挖掘技术应用于Web。一般将Web挖掘定义为:从WWW的资源和行为中抽取感兴趣的、有用的模式和隐含的信息。数据挖掘是一项综合性交叉技术,融合了Internet技术、数据库、人工智能等多个领域的理论和技术。
3 Web挖掘分类
当前Web上的信息主要分为三类:1)Web页面中的内容,包括文本信息和各种媒体信息;2)Web页面中超链接之间相互引用的数据;3)Web服务器上的用户登录网站的访问日志数据。对这三种数据采用的处理算法有很大的差异,由此将Web挖掘分为三类[1]:Web内容挖掘(Web Content Mining)、Web结构挖掘(Web Structure Mining)和Web日志挖掘,即Web使用记录挖掘(Web Usage Mining)。Web挖掘的分类图如图1所示。
3.1Web内容挖掘
Web内容挖掘,即为从Web上的文件内容及其描述信息中获取潜在的、有价值的知识或模式的过程。Web文档内容的挖掘、基于概念索引的资源发现和基于代理的技术都属于这一类。Web内容挖掘有两种策略[2],即直接挖掘文档的内容,或在其他工具,主要是在搜索引擎搜索的基础上进行改进。
Web内容挖掘的对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。其中针对无结构化文本进行的Web挖掘被归类到基于文本的知识发现(Knowledge Discovery in Textual Database,简称KDT)领域,也称文本数据挖掘或文本挖掘,是Web挖掘中比较重要的技术领域,也引起了许多研究者的关注。最近在Web多媒体数据挖掘方面的研究成为另一个热点。
3.2 Web结构挖掘
Web结构挖掘是对Web页面链接关系、文档内部结构、文档URL中的目录路径结构等的挖掘,即从Web的组织结构和链接关系中推导知识[3]。这种思想源于引文分析,即通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。这种模式可以用于网页归类,并且可以由此获得有关不同网页间相似度及关联度的信息。这一领域最为常用的分析算法是独立于查询的PageRank算法以及查询相关的HITS算法。
此外,Web结构挖掘的另一个尝试是在Web数据仓库环境下的挖掘,包括通过检查同一台服务器上的本地连接衡量Web站点的完全性,在不同的Web数据仓库中检查副本以帮助定位镜像站点,通过发现针对某一特定领域的超链接的层次属性去探索信息流动如何影响Web站点的设计。
3.3 Web日志挖掘
Web日志挖掘是指将数据挖掘技术应用于Web服务器日志文件,以发现隐藏在其中的用户访问模式[4]。主要的Web日志挖掘包括网页相关性分析和用户访问模式分析。Web日志挖掘主要应用于以下的五个方面:
⑴个性化服务与定制:针对单个用户的使用记录对该用户进行建模,结合该用户基本信息分析他的使用习惯、个人喜好,目的是在电子商务环境下为该用户提供与众不同的个性化服务。
⑵改进系统性能和结构:Web服务的性能和其他服务质量是衡量用户满意度的关键指标,Web 日志挖掘可以通过用户的拥塞记录发现站点的性能瓶颈,以提示站点管理者改进Web缓存策略、网络传输策略、流量负载平衡机制和数据的分布策略。此外,可以通过分析网络的非法入侵数据找到系统弱点,提高站点安
文档评论(0)