数据挖掘原理 算法及应第7章 Web挖掘.pptVIP

数据挖掘原理 算法及应第7章 Web挖掘.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘原理 算法及应第7章 Web挖掘

7.1 Web挖掘的分类及其数据来源 7.1.1 Web挖掘的分类   根据对Web数据的感兴趣程度的不同, Web挖掘一般可以分为三类:Web内容挖掘(Web Content Mining)、 Web结构挖掘(Web Structure Mining)、Web使用挖掘(Web Usage Mining)。   Web挖掘的分类如图7-1所示。 7.2 Web日志挖掘   Web日志挖掘主要是通过分析Web服务器的日志文件, 以发现用户访问站点的浏览模式,为站点管理员提供各种Web站点改进或可以带来经济效益的信息。 用户访问模式分析通过分析Web使用记录来了解用户的访问模式和倾向,从而帮助销售商确定相对固定的顾客群,设计商品的销售方案, 评价各种促销活动以及发现Web空间最有效的逻辑结构。 个性化分析倾向于分析单个用户的偏好, 根据不同用户的访问模式,动态地为用户定制观看的内容或提供浏览建议,使得网站更加生动和独特。 7.3 Web内容挖掘   Web内容挖掘是从Web文档的内容或其描述中提取知识的过程。 Web内容挖掘针对的对象是Web文档信息和多媒体信息, 就其挖掘内容而言, 又可以将其分为对Web文本文档(包括Text、HTML等格式)和多媒体文档(包括Image、 Audio、 Video等媒体类型)的挖掘。目前,关于Web内容挖掘的研究大体以Web文本内容挖掘为主。Web内容挖掘一般从资源查找和数据库两个不同的方面进行研究。 第7章 Web 挖 掘 第7章 Web 挖 掘 7.1 Web挖掘的分类及其数据来源 7.2 Web日志挖掘 7.3 Web内容挖掘 图7-1 Web挖掘的分类   1. Web内容挖掘   Web内容挖掘是指对Web页面内容进行挖掘,从Web文档的内容信息中抽取知识。Web内容挖掘的对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。 Web内容挖掘的重点是文本的特征、 分类和聚类。 Web挖掘的一个研究热点是针对无结构化文本进行的文本挖掘; Web多媒体数据挖掘正成为另一个研究热点。  Web内容挖掘一般从两个不同的观点来进行研究。 从资源查找(IR)的观点来看, Web内容挖掘的任务是从用户的角度出发, 提高信息质量和帮助用户过滤信息。 这里的非结构化文档主要指Web上的自由文本, 包括小说、 新闻等。 而从数据库(DB)的观点来看, Web内容挖掘的任务主要是试图对Web上的数据进行集成、 建模, 以支持对Web数据的复杂查询。 数据库技术应用于Web挖掘主要是为了解决Web信息的管理和查询问题。 这些问题可以分为三类: Web信息的建模和查询、 信息抽取与集成、 Web站点建构和重构。   2. Web结构挖掘   Web结构挖掘主要是通过对Web站点的超链接结构进行分析、变形和归纳,将Web页面进行分类,以利于信息的搜索。Web结构挖掘可用于发现Web的结构和页面的结构及其蕴含在这些结构中的有用模式;对页面及其链接进行分类和聚类,找出权威页面;发现Web文档自身的结构,这种结构挖掘能更有助于用户的浏览,也利于对网页进行比较和系统化。Web结构挖掘可细分为超链接挖掘、 URL挖掘和内部结构挖掘三种。   Web结构挖掘在一定程度上得益于社会网络和引用分析的研究。 把网页之间的关系分为incoming连接和outgoing连接, 运用引用分析方法找到同一网站内部以及不同网站之间的连接关系。 在Web结构挖掘领域最著名的算法是HITS算法和PageRank算法。 它们的共同点是使用一定方法计算Web页面之间超链接的质量, 从而得到页面的权重。 著名的Clever和Google搜索引擎就采用了该类算法。     此外, Web结构挖掘的另一个尝试是在Web数据仓库环境下的挖掘, 包括通过检查同一台服务器上的本地连接衡量Web结构挖掘Web站点的完全性,在不同的Web数据仓库中检查副本以帮助定位镜像站点,通过发现针对某一特定领域超链接的层次属性去探索信息流动如何影响Web站点的设计。     3. Web使用挖掘(Web usage Mining)   Web使用挖掘即Web使用记录挖掘, 是数据挖掘技术在Web使用数据上的应用。利用Web使用挖掘技术,可以通过Web缓存改进系统设计、 Web页面预取、 Web页面交换;认识Web信息访问的本质;理解用户的反映和动机。 例如,有些研究提出了可适应站点的概念,即可以通过用户访问模式的学习改进其自身的Web站点。这些分析还有助于建立针对个体的个性化Web服务。Web使用挖掘在新兴的电子商务领域有重要意义,例如可以识别用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。   Web使用

文档评论(0)

fangsheke66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档