基于内容互联网图像检索引擎体系研究.docVIP

下载本文档

1
0
约3.25千字
约 8页
2018-08-29 发布于福建
举报
版权申诉

基于内容互联网图像检索引擎体系研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于内容互联网图像检索引擎体系研究

基于内容互联网图像检索引擎体系研究　　关键词：搜索引擎；因特网导航；图像检索；基于内容检索　　摘要：研究基于内容的图像搜索引擎之体系结构及工作原理，对图像搜索引擎的发展趋势进行了展望。　　中图分类号：F713文献标识码：A文章编号：1672-4755(2007)04-0122-02 　　　　一、图像检索引擎框架　　　　（一）体系结构　　　　国内外相关学者相继提出基于内容的图像搜索引擎系统模型，曹天杰指出图像搜索引擎应包括客户端查询接口、服务器端的搜索Agent、图像库及索引库、库维护Agent、搜索请求Agent、优化处理及学习Agent。王学松等则认为，基于内容的图像搜索引擎应由图像信息获取模块、图像信息分析模块、图像内容特征获取模块和图像搜索引擎的用户界面组成。笔者认为，基于内容的图像搜索引擎应包括图像信息获取、图像信息处理、图像数据库组织与管理、用户接口界面四个部分，体系结构如图1所示。　　（二）图像信息获取　　图像爬虫起到图像信息获取的作用，影响着搜索引擎的查全率和查准率，也决定着搜索引擎信息容量的大小。图像爬虫不分昼夜地在互联网上爬行，根据事先确定的搜索策略和优先搜索范围，不断抓取其中新的图像资源和相关的描述信息。从图像信息获取技术看主要有自主的网络机器人Robots技术、元搜索技术、用户自注册技术三种。自主的网络机器人Robots技术是通过对初始设置的网址范围进行扫描式搜索，获取所有页面，然后对获取的页面进行存储分析获取其中的图片信息，数据库完全是自己创建的，可以定期的进行更新。元搜索技术是对已有其他搜索引擎的数据进行再处理，充分利用已经有的搜索引擎的搜索结果，避免重复工作。用户自动注册方式实际上还是手工方式，好处是描述精准，但工作量太大。Robots的局限性在于需要对给定范围网址进行全面搜索工作量大，目前即使是最大的搜索引擎也只能占到全部网站的很少部分。元搜索的局限性在于过于依赖别人的结果，灵活性较差。用户注册的局限性在于往往需要用户自己描述，搜索引擎无法对网页的图像进行客观的描述。为提高图像爬虫的性能，陈韶斌等提出采用多个线程，让爬虫以智能化方式在互联网上进行搜索，每个线程功能类同于独立的智能化搜索代理，由图像爬虫的核心模块负责协调和管理，各线程之间相对独立又互相协同，有效地提高了爬虫抓取图像资源的速度，从而扩大图像搜索引擎所能搜索的范围。　　（三）图像信息处理　　通过该图像处理模块完成以下四项任务：将新图像资源进行简单处理(如压缩)后存入图像库中；提取图像的物理特征，存放到特征库中；将图像的语义特征，存入语义库中；对图像数据库建立索引，存放到索引库中。该模块对检索整体性能起根本性的决定作用。第一个任务好理解，是成熟的技术。第二个任务物理特征主要包括：颜色、纹理、形状特征等。颜色特征与图像的大小、方向无关，而且对图像的背景细节及噪声不敏感，易于计算获得，目前采用较多，主要提取颜色直方图、颜色相关图，颜色中心矩等矢量数据。纹理是图像的表面结构特征，主要利用灰度共生矩阵、粗糙度、对比度以及小波变换等技术提取；形状主要是边界轮廓、形状骨架、区域分析方法，傅利叶描述子和不变矩等技术进行提取。第三个任务语义特征提取方法有：一是基于知识的语义提取。此方法需要预先给搜索引擎提供必要的知识，如对象模块、图像场景分类器等，然后由搜索引擎通过识别对象之间的关系来理解图像，生成对应的语义信息。依据提取的语义内容和采取方法的不同，又可以分为基于对象识别的处理方法和全局处理方法。二是人工交互语义提取。该方法主要体现在图像库预处理和反馈学习两个方面，图像搜索引擎从与用户的交互当中进行学习，进而修正语义库中的语义描述。三是利用外部信息源的语义生成，即根据图像来源处的其它信息如URL中的文件名、I MG的alt域、图像前后的文本等，来获得与图像相关的相对高层的描述信息。第四个任务这些特征通过各种方法抽取出来，形成一组特征向量，建立相关索引并存储到数据库中。国际标准正在制订有关基于内容描述的多媒体标准，图片的内部特征的获取必将更加方便，统一和准确。　　（四）数据库管理与组织　　图像搜索引擎数据库中包含了图像的语义描述信息、图像的地址信息、图像的内容特征信息、图像的分类索引信息、图像的关键词描述信息等必要的数据。数据量庞大，且数据类型复杂，如何有效的设计这种数据库将极大的影响搜索引擎的性能、相应速度及搜索准确率。原始资源库保存通过获取途径得到的页面及图片信息。并且在检索过程中，作为缓存数据库使用。字典知识库保存图片领域的名称关键词及多国语言的相互关联关系，同时保存图片类目。图像语义库存储从返回的图片中抽取的关键词及描述信息。图像特征库保存利用图像识别和图像处理技术取得的检索特征。图