- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web挖掘研究
摘要:随着网络的飞速发展,Web挖掘技术已成为一个研究热点。本文就Web挖掘与相关研究进行了对比,介绍了Web挖掘的概念、分类及步骤,最后给出了Web挖掘的研究方向。
关键词:Web挖掘;数据挖掘;信息检索
随着数字化信息时代的到来,网络日渐成为人们获得信息的重要途径。然而网络中信息量巨大且分散无序,Web用户经常发现难以找到其所需的信息,造成“信息过载,知识匮乏”[1]的现状。通用搜索引擎给人们提供了进行信息检索的方法,但也存在查准率不高、查全率不能保证等问题。Web挖掘技术正是应这一需求而出现的一项新技术。人们运用Web挖掘技术,寻找网络中有趣的、潜在的、有用的模式或隐藏的信息,并利用这些信息加快用户检索的效率,从而使网络资源更好的为人们服务。
1 Web挖掘定义与相关研究
1.1 Web挖掘的定义
Web挖掘[2]就是从Web页面和Web用户访问活动中发现、抽取有用模式和隐藏的信息。它是以从Web上挖掘有用知识为目标,以数据挖掘、文本挖掘、多媒体挖掘为基础,并综合运用计算机网络、数据库与数据仓储、人工智能、信息检索等技术,将传统的数据挖掘技术与Web结合起来的一门新兴学科。
1.2 Web挖掘与数据挖掘
数据挖掘[3]是从数据库的大量数据中揭示出隐含的、潜在有用信息的频繁过程。从广义观点来说,数据挖掘就是从存放在数据库、数据仓库或其它信息库中的大量数据中挖掘有趣知识的过程。
Web 挖掘从数据挖掘发展而来,在研究方法上有很多相似之处。但是,Web 挖掘与数据挖掘相比有许多独特之处。首先,Web 挖掘的对象是大量、异质、分布的 Web 文档。其次,Web 在逻辑上是一个由文档节点和超链接构成的图,因此 Web 挖掘所得到的模式可能是关于 Web 内容的,也可能是关于Web 结构的。
1.3 Web挖掘与信息检索
信息检索[4]是自动获取相关文档的同时尽可能少的获取不相关文档,其主要的目标是索引文本,寻找有用的文档。
Web挖掘与信息检索在一些方面有所不同。首先,信息检索是目标驱动的,用户需要明确提出查询要求,其目的在于帮助用户发现资源;Web 挖掘是机会主义的,其结果独立于用户的信息需求,揭示文档中隐含的知识是它的目标;第二,信息检索使用精度和查全率来评价其性能;而 Web挖掘采用受益度、置信度、简洁性等来衡量所发现知识的有效性、可用性和可理解性。
2 Web挖掘的分类
Web挖掘大致分为三类:Web内容挖掘(Web content mining)、Web结构挖掘(Web structure mining)、Web使用记录挖掘(Web usage mining).下图为Web挖掘的分类图:
xieht01.tif
2.1 Web内容挖掘
Web内容挖掘是指从 Web上的网页内容及其描述信息中获取潜在的、有价值的知识模式,以实现Web资源的自动检索,提高Web数据利用率的过程。Web内容挖掘根据不同的标准,有多种不同的分类方法。按挖掘对象来划分包括对文本文档的挖掘和多媒体文档的挖掘 ;按方法来划分有信息查询观点的挖掘和数据库观点的挖掘;按内容又可分为对Web 文档的挖掘和对搜索结果的挖掘。
2.2 Web结构挖掘
Web结构挖掘的基本思想是将Web看作一个有向图,它的顶点是Web页面,页面间的超链接就是有向图的边。然后利用图论对 Web的拓扑结构进行分析。这种思想源于引文分析,即通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。在Web结构挖掘领域最著名的两个算法是:PageRank算法和HITS算法。它们的共同点是使用一定方法计算Web页面之间的超链接质量,从而得到页面的权重。
2.3 Web使用记录挖掘
Web使用记录挖掘又称为Web日志挖掘,主要目标是从Web的访问记录中发现感兴趣的模式;分析不同Web站点的访问日志可以帮助人们理解用户的行为和Web结构,从而改进站点的结构,或为用户提供个性化的服务。Web使用挖掘的基本流程包括四个阶段:数据预处理、挖掘算法实施、模式分析、可视化。
3 Web挖掘的过程
Web挖掘的处理流程[5]包括如下四个步骤:资源发现、信息选择和预处理、模式发现、模式分析。
1)资源发现
网络爬虫在线收集Web文档、网站的日志等数据,并从中得到有用的数据。
2)信息选择和预处理
剔除Web资源中无用信息并将信息进行必要的整理,如Web文档中自动去除广告连接、去除多余格式标记、英文单词的词干提取、高额低频词的过滤、汉语词的切分等。
您可能关注的文档
最近下载
- 施工企业现场质量管理制度及奖惩办法.pdf VIP
- 传感器原理及应用 教案.pdf VIP
- 砂石料供应、运输、售后服务方案14627.pdf VIP
- 传承雷锋精神争做时代新人--主题班会课件.pptx VIP
- 气管切开非机械通气患者气道管理考试题及答案.doc
- 横河flxa21两线制电导率变送器快速启动手册.pdf VIP
- 图集规范-天津图集-12J5-1图集(2012版)平屋面 DBJT29-18-2013.pdf VIP
- 第2课+丰富多彩的中华传统体育+课件 2025-2026学年人教版(2024)初中体育与健康八年级全一册.pptx VIP
- 第12课 闭环控制助稳定 教案 义务教育人教版信息科技六年级全一册.pdf VIP
- 生命教育PPT模板.pptx VIP
文档评论(0)