- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于内容互联网图像检索引擎体系研究
基于内容互联网图像检索引擎体系研究
关键词:搜索引擎;因特网导航;图像检索;基于内容检索
摘 要:研究基于内容的图像搜索引擎之体系结构及工作原理,对图像搜索引擎的发展趋势进行了展望。
中图分类号:F713文献标识码:A文章编号:1672-4755(2007)04-0122-02
一、图像检索引擎框架
(一)体系结构
国内外相关学者相继提出基于内容的图像搜索引擎系统模型,曹天杰指出图像搜索引擎应包括客户端查询接口、服务器端的搜索Agent、图像库及索引库、库维护Agent、搜索请求Agent、优化处理及学习Agent。王学松等则认为,基于内容的图像搜索引擎应由图像信息获取模块、图像信息分析模块、图像内容特征获取模块和图像搜索引擎的用户界面组成。笔者认为,基于内容的图像搜索引擎应包括图像信息获取、图像信息处理、图像数据库组织与管理、用户接口界面四个部分,体系结构如图1所示。
(二)图像信息获取
图像爬虫起到图像信息获取的作用,影响着搜索引擎的查全率和查准率,也决定着搜索引擎信息容量的大小。图像爬虫不分昼夜地在互联网上爬行,根据事先确定的搜索策略和优先搜索范围,不断抓取其中新的图像资源和相关的描述信息。从图像信息获取技术看主要有自主的网络机器人Robots技术、元搜索技术、用户自注册技术三种。自主的网络机器人Robots技术是通过对初始设置的网址范围进行扫描式搜索,获取所有页面,然后对获取的页面进行存储分析获取其中的图片信息,数据库完全是自己创建的,可以定期的进行更新。元搜索技术是对已有其他搜索引擎的数据进行再处理,充分利用已经有的搜索引擎的搜索结果,避免重复工作。用户自动注册方式实际上还是手工方式,好处是描述精准,但工作量太大。Robots的局限性在于需要对给定范围网址进行全面搜索工作量大,目前即使是最大的搜索引擎也只能占到全部网站的很少部分。元搜索的局限性在于过于依赖别人的结果,灵活性较差。用户注册的局限性在于往往需要用户自己描述,搜索引擎无法对网页的图像进行客观的描述。为提高图像爬虫的性能,陈韶斌等提出采用多个线程,让爬虫以智能化方式在互联网上进行搜索,每个线程功能类同于独立的智能化搜索代理,由图像爬虫的核心模块负责协调和管理,各线程之间相对独立又互相协同,有效地提高了爬虫抓取图像资源的速度,从而扩大图像搜索引擎所能搜索的范围。
(三)图像信息处理
通过该图像处理模块完成以下四项任务:将新图像资源进行简单处理(如压缩)后存入图像库中;提取图像的物理特征,存放到特征库中;将图像的语义特征,存入语义库中;对图像数据库建立索引,存放到索引库中。该模块对检索整体性能起根本性的决定作用。第一个任务好理解,是成熟的技术。第二个任务物理特征主要包括:颜色、纹理、形状特征等。颜色特征与图像的大小、方向无关,而且对图像的背景细节及噪声不敏感,易于计算获得,目前采用较多,主要提取颜色直方图、颜色相关图,颜色中心矩等矢量数据。纹理是图像的表面结构特征,主要利用灰度共生矩阵、粗糙度、对比度以及小波变换等技术提取;形状主要是边界轮廓、形状骨架、区域分析方法,傅利叶描述子和不变矩等技术进行提取。第三个任务语义特征提取方法有:一是基于知识的语义提取。此方法需要预先给搜索引擎提供必 要的知识,如对象模块、图像场景分类器等,然后由搜索引擎通过识别对象之间的关系来理解图像,生成对应的语义信息。依据提取的语义内容和采取方法的不同,又可以分为基于对象识别的处理方法和全局处理方法。二是人工交互语义提取。该方法主要体现在图像库预处理 和反馈学习两个方面,图像搜索引擎从与用户的交互当中进行学习,进而修正语义库中的语义描述。三是利用外部信息源的语义生成,即根据图像来源处的其它信息如URL中的文件名、I MG的alt域、图像前后的文本等,来获得与图像相关的相对高层的描述信息。第四个任务这些特征通过各种方法抽取出来,形成一组特征向量,建立相关索引并存储到数据库中。国际标准正在制订有关基于内容描述的多媒体标准,图片的内部特征的获取必将更加方便,统一和准确。
(四)数据库管理与组织
图像搜索引擎数据库中包含了图像的语义描述信息、图像的地址信息、图像的内容特征信息、图像的分类索引信息、图像的关键词描述信息等必要的数据。数据量庞大,且数据类型复杂,如何有效的设计这种数据库将极大的影响搜索引擎的性能、相应速度及搜索准确率。原始资源库保存通过获取途径得到的页面及图片信息。并且在检索过程中,作为缓存数据库使用。字典知识库保存图片领域的名称关键词及多国语言的相互关联关系,同时保存图片类目。图像语义库存储从返回的图片中抽取的关键词及描述信息。图像特征库保存利用图像识别和图像处理技术取得的检索特征。图
您可能关注的文档
最近下载
- 2025年园林公务员测试题及答案.doc VIP
- 华医网不孕症的中西医药诊治新进展相关试题及答案.doc VIP
- CUDA并行编程从入门到实战指南.docx VIP
- 2025超越健康:重构零售药房的社会价值.pdf VIP
- 机械设备施工专项方案.docx VIP
- 张爱玲经典散文(精选11篇).docx VIP
- 1 审计工作底稿编制指引——货币资金.pdf VIP
- 《铁路调度指挥及控制系统》课件——CTC系统概述.pptx VIP
- 高中思想政治必修第1册 中国特色社会主义 第3课 只有中国特色社会主义才能发展中国【复习课件】.ppt VIP
- 信息技术(基础模块)(WPS Office)(AI协同)(微课版)课件 模块七 WPS AI应用.pptx
原创力文档


文档评论(0)