基于启发式规则的多媒体主题信息挖掘.pdfVIP

基于启发式规则的多媒体主题信息挖掘.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于启发式规则的多媒体主题信息挖掘 邱鸥2,封化民1,宋国森2 (1.北京电r科技学院信息安全与保密藿点实验室,北京100070; 2.燕山大学信息T程学院,秦皇岛066004) 摘 要:随着Internet的发展,Web上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这 就给多媒体内容的检索,信息提取等计算机处理带来了巨大困难。针对信息提取后,网页的多 媒体内容的不一致性,该文提出了一种web网页多媒体信息提取的融合算法.该算法通过对图 像和文本的语义的融合.判断通过信息提取后的网页中的各种形态的内容是否一致。对来自30 个网站的307个网页进行测试后的实验表明.本文提出的方法是可行的. 关键词:内容挖掘语义融合模型 自信息量 1.引言 存如今信,烈爆发I’川时代。髂个网络形成了一个海萤彩蚁体数据摩.人们越来越依柏从 web网页中获取信息.网页中的信息每天都在以白。万计的数节进行更新.冈此从浩瀚的信息 海洋t扣狭取自己想得剑l,l勺信息足很t*J难的事情,这使得如何从信息海洋。|J扶墩有用的信息和 对这些信息进行处理及web挖捌成为研究的热点课题.众所Jl;[;】知,现在已经出现的功能强人 的搜索引擎入google、baidu等为我们从网络中得剑信息提供了‘‘定n勺帮助,然而EJ前的 网络引擎甲均只能检索25%的可j犬取信息,其返同结果经常会包含人带J’门无用信息,无法满 足人们的需要[1]。随着Web上的信息成爆炸式增长,各种各样的资料数据令人目不暇接。 在完成了Web页面结构分析后,Web内容的语义分析和关联分析就成了web挖掘发展的瓶颈。 Web页面的内容包含有人节的多媒体信息如文本信息,图片甚至视频,音频等信息,要把各 种不同的信息进行融合。以建立多种媒体信息流的语义融合模型,从而获墩更多的信息。目 fj{『这方面的研究尚处在初步研究阶段。 网页中的图片更新速度快,信息节巨人,但足人们发现浏览网页fn时候通常出现‘些资 料图片或扦根本与网页lF艾上题无关的图片,这样根据网页正义f向内棒束对图片进行分类或 杆检索就会出现不理想的搜索结果。为减少这种错误,本文提出了图像语义与文本语义融合 的方法。埘来自30个网站的307的刚页的实验测试,表明该方法足有效的。木文的组纵结构如 卜.:第■部分给出了”4些研究相关下作,第三部分对算法进行描述ji:给出实验步骤,在第四 部分给出实验结果,第兀部分对实验结果进行分析的出结论并讨论未来的研究工作。 2. 相关工作 web挖掘一·般分为三个方面,即web结构挖掘(及对网页的页而缶’i构进行分析,对网页 的上题进行抽墩等)、wob内棒挖拥(利川机器。学习、知识发现、数据挖抓{等对web内弈进 行分析)、站点口志挖圳(挖掘川』、访问web的习惯方式等)。其L{。web内弈挖掘的研究最为 璃企J{;!几:嘲家rI然干}学艰会资呐砌f1(60/172082) 重庆,燕t11人学颂:Ij研究,} 作青fi;)介:封化民(1H6:,一).粥(汝),陕曲,教授。邱Wg男(汉). E-nl:,ti l:!!!gb!!b!j!!:!g!:!!!g!!!B!!!!!!!!:!!!:£1 301 广泛,大致从三个方向来研究web内容挖掘:基于语义的…、基于数据库挖掘关联规则幢’和 基于数据库的多媒体内弈挖掘u1。 网页中的图片可以看作是一种多媒体数据。现有的对图像挖捌的研究都是基于图像内容 的图像分类和图像检索等,有很多学者都提出了基于图像语义或者结合图像语义与图像内窖 对图像检索和分类的算法或糟模型结构H¨5|m川;也有很多比较完整的系统如Ifind系统等: 在上个1廿纪90年代中期围外提出VisualSemantics,是在报纸新闻qJ通过从有文本伴随的图 片中提取视觉感觉信息。并基于VisualSemantics建立一一个PICTION系统哺‘。这些系统或算 法都是直接把图片周同的文本信息!氲接当作图片的语义。当图片所讲述的内容与文本信息不 一致时,很容易导致图片分类和检索错误。因此挖掘图片内容与文本内容是否一致就成了减 少这种错误的一个重要手段。为此,本文提出了一种web网页多媒体信息提取的融合算法。 该算法通过对图像和义本的语义的融合,判断通过信息提取后的网

文档评论(0)

bhl0572 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档