基于启发式规则的多媒体主题信息挖掘.pdfVIP

下载本文档

1
0
约1.22万字
约 8页
2017-08-13 发布于安徽
举报
版权申诉

基于启发式规则的多媒体主题信息挖掘.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于启发式规则的多媒体主题信息挖掘邱鸥2，封化民1，宋国森2 (1．北京电r科技学院信息安全与保密藿点实验室，北京100070； 2．燕山大学信息T程学院，秦皇岛066004) 摘要：随着Internet的发展，Web上信息呈爆炸式增长趋势，呈现方式也愈发多种多样，这就给多媒体内容的检索，信息提取等计算机处理带来了巨大困难。针对信息提取后，网页的多媒体内容的不一致性，该文提出了一种web网页多媒体信息提取的融合算法．该算法通过对图像和文本的语义的融合．判断通过信息提取后的网页中的各种形态的内容是否一致。对来自30 个网站的307个网页进行测试后的实验表明．本文提出的方法是可行的．关键词：内容挖掘语义融合模型自信息量 1．引言存如今信，烈爆发I’川时代。髂个网络形成了一个海萤彩蚁体数据摩．人们越来越依柏从 web网页中获取信息．网页中的信息每天都在以白。万计的数节进行更新．冈此从浩瀚的信息海洋t扣狭取自己想得剑l，l勺信息足很t*J难的事情，这使得如何从信息海洋。|J扶墩有用的信息和对这些信息进行处理及web挖捌成为研究的热点课题．众所Jl；[；】知，现在已经出现的功能强人的搜索引擎入google、baidu等为我们从网络中得剑信息提供了‘‘定n勺帮助，然而EJ前的网络引擎甲均只能检索25％的可j犬取信息，其返同结果经常会包含人带J’门无用信息，无法满足人们的需要[1]。随着Web上的信息成爆炸式增长，各种各样的资料数据令人目不暇接。在完成了Web页面结构分析后，Web内容的语义分析和关联分析就成了web挖掘发展的瓶颈。 Web页面的内容包含有人节的多媒体信息如文本信息，图片甚至视频，音频等信息，要把各种不同的信息进行融合。以建立多种媒体信息流的语义融合模型，从而获墩更多的信息。目 fj{『这方面的研究尚处在初步研究阶段。网页中的图片更新速度快，信息节巨人，但足人们发现浏览网页fn时候通常出现‘些资料图片或扦根本与网页lF艾上题无关的图片，这样根据网页正义f向内棒束对图片进行分类或杆检索就会出现不理想的搜索结果。为减少这种错误，本文提出了图像语义与文本语义融合的方法。埘来自30个网站的307的刚页的实验测试，表明该方法足有效的。木文的组纵结构如卜．：第■部分给出了”4些研究相关下作，第三部分对算法进行描述ji：给出实验步骤，在第四部分给出实验结果，第兀部分对实验结果进行分析的出结论并讨论未来的研究工作。 2．相关工作 web挖掘一·般分为三个方面，即web结构挖掘(及对网页的页而缶’i构进行分析，对网页的上题进行抽墩等)、wob内棒挖拥(利川机器。学习、知识发现、数据挖抓{等对web内弈进行分析)、站点口志挖圳(挖掘川』、访问web的习惯方式等)。其L{。web内弈挖掘的研究最为璃企J{；!几：嘲家rI然干}学艰会资呐砌f1(60／172082) 重庆，燕t11人学颂：Ij研究，} 作青fi；)介：封化民(1H6：，一)．粥(汝)，陕曲，教授。邱Wg男(汉)． E-nl：，ti l：!!!gb!!b!j!!：!g!：!!!g!!!B!!!!!!!!：!!!：￡1 301 广泛，大致从三个方向来研究web内容挖掘：基于语义的…、基于数据库挖掘关联规则幢’和基于数据库的多媒体内弈挖掘u1。网页中的图片可以看作是一种多媒体数据。现有的对图像挖捌的研究都是基于图像内容的图像分类和图像检索等，有很多学者都提出了基于图像语义或者结合图像语义与图像内窖对图像检索和分类的算法或糟模型结构H¨5|m川；也有很多比较完整的系统如Ifind系统等：在上个1廿纪90年代中期围外提出VisualSemantics，是在报纸新闻qJ通过从有文本伴随的图片中提取视觉感觉信息。并基于VisualSemantics建立一一个PICTION系统哺‘。这些系统或算法都是直接把图片周同的文本信息!氲接当作图片的语义。当图片所讲述的内容与文本信息不一致时，很容易导致图片分类和检索错误。因此挖掘图片内容与文本内容是否一致就成了减少这种错误的一个重要手段。为此，本文提出了一种web网页多媒体信息提取的融合算法。该算法通过对图像和义本的语义的融合，判断通过信息提取后的网