多媒体数据挖掘—概述.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多媒体数据挖掘—概述

多媒体数据挖掘—WEB挖掘; 图像挖掘 (视觉特性,空间特性) 视频挖掘(时间特性,视频对象特性,运动特性) 音频挖掘 WEB挖掘(内容挖掘,结构挖掘,日志挖掘) 多媒体综合挖掘(挖掘过程的各阶段,综合利用多媒 体的特性进行知识发现。使有机的复合效果大 于效果之和) ;1.Web数据挖掘 Web Mining (Web挖掘)这个术语是由Etzioni于1996年首先提出来的。Web数据挖掘是数据挖掘技术在Web上的应用,它利用数据挖掘技术从与Web相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域,是一项综合技术。 2. Web数据挖掘的分类 作为Web的对象,Web数据包含了内容数据(content data)、结构数据(structure data)和日志数据(usage data)三种类型。因此,根据Web数据源类型的不同,Web挖掘可以分为:Web内容挖掘(Web Content Mining), Web结构挖掘(Web Structure Mining)和Web日志挖掘(Web Usage ;Mining).Web数据挖掘如图所示: ;2.1 Web内容挖掘 是对Web页面数据(包括文本、图像、音频、视频、多媒体和其他各种类型的数据)的挖掘。Internet有各种类型的服务和数据源,如:WWW, FTP, Telnet等,现在有更多的内容如:政府信息服务、数字图书馆、电子商务数据及其他各种通过Web形式访问的数据库。 Web内容挖掘一般从两个角度进行研究:从用户的角度,研究怎样提高信息质量和帮助用户过滤信息;从DB的角度,研究怎样对Web上的数据进行集成、建模,以支持对Web数据的复杂查询。 ; Web内容挖掘是从Web资源中发现信息或知识的过程。在创建个性化服务系统时,人们通常应用Web内容挖掘对网页内容进行分析,其中网页的自动分类技术在搜索引擎、数字化图书馆等领域得到了广泛的应用。 2.2 Web结构挖掘 Web结构挖掘的对象是Web本身的超连接,包括页面内部的结构以及页面之间的结构。对于给定的Web文档集合,运用引用分析方法找到同一网站内部以及不同网站之间的连接关系,通过算法发现他们之间连接情况的有用信息。挖掘Web结构信息对于导航用户浏览行为、改进站点设计评价页面的重要性等都非常重要。Web结构挖掘通常需要整个Web的全局数据,因此在个性化搜索引擎或主题搜 ;索引擎研究领域得到了广泛的应用。如一个站点的入链数目远大于出链数目,那么这个站点可能是服务器;如果一个页面经常被引用,那么可以反映该页面的流行程度和重要性等。 ;2.3 Web日志挖掘(Web usage Mining) Web日志挖掘的对象是Web使用记录数据,除了服务器的日志记录外还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、鼠标点击 流等一切用户与站点之间可能的交互记录,因此Web使用记录的数据量是非常巨大的,而且数据类型也相当丰富。通过挖掘相关的Web日志记录,从中发现用户访问Web页面的模式;通过分析日志记录中的规律,来识别用户的忠实度、喜好、满意度,从中发现潜在用户,增强站点的服务竞争力。 Web日志挖掘对源数据的处理方法可以分为两 ;类,一种是将Web使用记录数据转换并传递进传统的关系表里,再使用数据挖掘算法进行常规挖掘;另一种是将Web使用记录数据直接预处理再进行挖掘。 Web日志挖掘技术通常可以应用到两个领域:当用来分析Web服务器的访问日志时,可以利用挖掘得到的服务模型来设计适应性Web站点;当应用到单个用户时,通过分析用户的访问历史来发现有用的用户访问模式。Web日志挖掘由于处理数据对象通常为用户的访问历史或服务器的访问日志,无法得知数据对象代表的内容,得到的结果一般比较粗糙,但是由于该方法比较成熟而且实现起来也较内容挖掘简单,在个性化系统中也得到了较广泛的应用。 ;3.WEB数据挖掘的流程 数据采集 数据预处理 模式挖掘 模式评估 ;3.2数据预处理 一般收集的数据都具有不一致性、冗余性、模糊性及不完整性,需要对收集的数据进行必要的预处理,清除“脏”数据,准备正确、完整、干净的数据源,通过挖掘算法,获得真实有效的挖掘模式。数据预处理主要包括: (1)数据清理:填充遗漏值,平滑噪声数据,识别离群点和删除噪声数据,

文档评论(0)

ccx55855 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档