Web挖掘研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web挖掘研究   摘要:随着网络的飞速发展,Web挖掘技术已成为一个研究热点。本文就Web挖掘与相关研究进行了对比,介绍了Web挖掘的概念、分类及步骤,最后给出了Web挖掘的研究方向。   关键词:Web挖掘;数据挖掘;信息检索      随着数字化信息时代的到来,网络日渐成为人们获得信息的重要途径。然而网络中信息量巨大且分散无序,Web用户经常发现难以找到其所需的信息,造成“信息过载,知识匮乏”[1]的现状。通用搜索引擎给人们提供了进行信息检索的方法,但也存在查准率不高、查全率不能保证等问题。Web挖掘技术正是应这一需求而出现的一项新技术。人们运用Web挖掘技术,寻找网络中有趣的、潜在的、有用的模式或隐藏的信息,并利用这些信息加快用户检索的效率,从而使网络资源更好的为人们服务。      1 Web挖掘定义与相关研究      1.1 Web挖掘的定义      Web挖掘[2]就是从Web页面和Web用户访问活动中发现、抽取有用模式和隐藏的信息。它是以从Web上挖掘有用知识为目标,以数据挖掘、文本挖掘、多媒体挖掘为基础,并综合运用计算机网络、数据库与数据仓储、人工智能、信息检索等技术,将传统的数据挖掘技术与Web结合起来的一门新兴学科。   1.2 Web挖掘与数据挖掘   数据挖掘[3]是从数据库的大量数据中揭示出隐含的、潜在有用信息的频繁过程。从广义观点来说,数据挖掘就是从存放在数据库、数据仓库或其它信息库中的大量数据中挖掘有趣知识的过程。   Web 挖掘从数据挖掘发展而来,在研究方法上有很多相似之处。但是,Web 挖掘与数据挖掘相比有许多独特之处。首先,Web 挖掘的对象是大量、异质、分布的 Web 文档。其次,Web 在逻辑上是一个由文档节点和超链接构成的图,因此 Web 挖掘所得到的模式可能是关于 Web 内容的,也可能是关于Web 结构的。   1.3 Web挖掘与信息检索   信息检索[4]是自动获取相关文档的同时尽可能少的获取不相关文档,其主要的目标是索引文本,寻找有用的文档。   Web挖掘与信息检索在一些方面有所不同。首先,信息检索是目标驱动的,用户需要明确提出查询要求,其目的在于帮助用户发现资源;Web 挖掘是机会主义的,其结果独立于用户的信息需求,揭示文档中隐含的知识是它的目标;第二,信息检索使用精度和查全率来评价其性能;而 Web挖掘采用受益度、置信度、简洁性等来衡量所发现知识的有效性、可用性和可理解性。      2 Web挖掘的分类      Web挖掘大致分为三类:Web内容挖掘(Web content mining)、Web结构挖掘(Web structure mining)、Web使用记录挖掘(Web usage mining).下图为Web挖掘的分类图:   xieht01.tif   2.1 Web内容挖掘   Web内容挖掘是指从 Web上的网页内容及其描述信息中获取潜在的、有价值的知识模式,以实现Web资源的自动检索,提高Web数据利用率的过程。Web内容挖掘根据不同的标准,有多种不同的分类方法。按挖掘对象来划分包括对文本文档的挖掘和多媒体文档的挖掘 ;按方法来划分有信息查询观点的挖掘和数据库观点的挖掘;按内容又可分为对Web 文档的挖掘和对搜索结果的挖掘。   2.2 Web结构挖掘      Web结构挖掘的基本思想是将Web看作一个有向图,它的顶点是Web页面,页面间的超链接就是有向图的边。然后利用图论对 Web的拓扑结构进行分析。这种思想源于引文分析,即通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。在Web结构挖掘领域最著名的两个算法是:PageRank算法和HITS算法。它们的共同点是使用一定方法计算Web页面之间的超链接质量,从而得到页面的权重。   2.3 Web使用记录挖掘   Web使用记录挖掘又称为Web日志挖掘,主要目标是从Web的访问记录中发现感兴趣的模式;分析不同Web站点的访问日志可以帮助人们理解用户的行为和Web结构,从而改进站点的结构,或为用户提供个性化的服务。Web使用挖掘的基本流程包括四个阶段:数据预处理、挖掘算法实施、模式分析、可视化。      3 Web挖掘的过程      Web挖掘的处理流程[5]包括如下四个步骤:资源发现、信息选择和预处理、模式发现、模式分析。   1)资源发现   网络爬虫在线收集Web文档、网站的日志等数据,并从中得到有用的数据。   2)信息选择和预处理   剔除Web资源中无用信息并将信息进行必要的整理,如Web文档中自动去除广告连接、去除多余格式标记、英文单词的词干提取、高额低频词的过滤、汉语词的切分等。

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档