- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于启发式规则的多媒体主题信息挖掘
邱鸥2,封化民1,宋国森2
(1.北京电r科技学院信息安全与保密藿点实验室,北京100070;
2.燕山大学信息T程学院,秦皇岛066004)
摘 要:随着Internet的发展,Web上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这
就给多媒体内容的检索,信息提取等计算机处理带来了巨大困难。针对信息提取后,网页的多
媒体内容的不一致性,该文提出了一种web网页多媒体信息提取的融合算法.该算法通过对图
像和文本的语义的融合.判断通过信息提取后的网页中的各种形态的内容是否一致。对来自30
个网站的307个网页进行测试后的实验表明.本文提出的方法是可行的.
关键词:内容挖掘语义融合模型 自信息量
1.引言
存如今信,烈爆发I’川时代。髂个网络形成了一个海萤彩蚁体数据摩.人们越来越依柏从
web网页中获取信息.网页中的信息每天都在以白。万计的数节进行更新.冈此从浩瀚的信息
海洋t扣狭取自己想得剑l,l勺信息足很t*J难的事情,这使得如何从信息海洋。|J扶墩有用的信息和
对这些信息进行处理及web挖捌成为研究的热点课题.众所Jl;[;】知,现在已经出现的功能强人
的搜索引擎入google、baidu等为我们从网络中得剑信息提供了‘‘定n勺帮助,然而EJ前的
网络引擎甲均只能检索25%的可j犬取信息,其返同结果经常会包含人带J’门无用信息,无法满
足人们的需要[1]。随着Web上的信息成爆炸式增长,各种各样的资料数据令人目不暇接。
在完成了Web页面结构分析后,Web内容的语义分析和关联分析就成了web挖掘发展的瓶颈。
Web页面的内容包含有人节的多媒体信息如文本信息,图片甚至视频,音频等信息,要把各
种不同的信息进行融合。以建立多种媒体信息流的语义融合模型,从而获墩更多的信息。目
fj{『这方面的研究尚处在初步研究阶段。
网页中的图片更新速度快,信息节巨人,但足人们发现浏览网页fn时候通常出现‘些资
料图片或扦根本与网页lF艾上题无关的图片,这样根据网页正义f向内棒束对图片进行分类或
杆检索就会出现不理想的搜索结果。为减少这种错误,本文提出了图像语义与文本语义融合
的方法。埘来自30个网站的307的刚页的实验测试,表明该方法足有效的。木文的组纵结构如
卜.:第■部分给出了”4些研究相关下作,第三部分对算法进行描述ji:给出实验步骤,在第四
部分给出实验结果,第兀部分对实验结果进行分析的出结论并讨论未来的研究工作。
2. 相关工作
web挖掘一·般分为三个方面,即web结构挖掘(及对网页的页而缶’i构进行分析,对网页
的上题进行抽墩等)、wob内棒挖拥(利川机器。学习、知识发现、数据挖抓{等对web内弈进
行分析)、站点口志挖圳(挖掘川』、访问web的习惯方式等)。其L{。web内弈挖掘的研究最为
璃企J{;!几:嘲家rI然干}学艰会资呐砌f1(60/172082)
重庆,燕t11人学颂:Ij研究,}
作青fi;)介:封化民(1H6:,一).粥(汝),陕曲,教授。邱Wg男(汉).
E-nl:,ti
l:!!!gb!!b!j!!:!g!:!!!g!!!B!!!!!!!!:!!!:£1
301
广泛,大致从三个方向来研究web内容挖掘:基于语义的…、基于数据库挖掘关联规则幢’和
基于数据库的多媒体内弈挖掘u1。
网页中的图片可以看作是一种多媒体数据。现有的对图像挖捌的研究都是基于图像内容
的图像分类和图像检索等,有很多学者都提出了基于图像语义或者结合图像语义与图像内窖
对图像检索和分类的算法或糟模型结构H¨5|m川;也有很多比较完整的系统如Ifind系统等:
在上个1廿纪90年代中期围外提出VisualSemantics,是在报纸新闻qJ通过从有文本伴随的图
片中提取视觉感觉信息。并基于VisualSemantics建立一一个PICTION系统哺‘。这些系统或算
法都是直接把图片周同的文本信息!氲接当作图片的语义。当图片所讲述的内容与文本信息不
一致时,很容易导致图片分类和检索错误。因此挖掘图片内容与文本内容是否一致就成了减
少这种错误的一个重要手段。为此,本文提出了一种web网页多媒体信息提取的融合算法。
该算法通过对图像和义本的语义的融合,判断通过信息提取后的网
您可能关注的文档
最近下载
- 2022年北京市十二中初三(上)期中数学试卷及答案.pdf VIP
- 鲁教版初中九年级化学各章节知识点归纳复习提纲.doc
- 海鲜市场项目可行性研究幻灯片.pptx VIP
- 微电网能量管理:技术、策略与发展路径探究.docx VIP
- 某污水处理工艺设备安装施工方案.docx VIP
- 理智与情感:爱情的心理文化之旅 智慧树网课章节测试答案.docx VIP
- 03.1 20CS03-1 一体化预制泵站选用与安装(一).docx VIP
- 2025年公司组织架构图及各部门职能要求模板参考(架构图可编辑).pdf VIP
- 级配碎石施工技术课件.ppt VIP
- 神话传说故事与中国文化 智慧树 知到答案.docx VIP
文档评论(0)