- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于文本图片搜索引擎研究
基于文本图片搜索引擎研究
摘 要:当前图片应用及其搜索技术越来越成熟,图片检索系统也随之得到了广泛的应用。文中基于上述背景首先对图片信息的技术、文本图片检索系统进行了探讨,接着对文本的图片搜索引擎系统的评价完成了简要概述,最后对组成系统架构以及系统应用测试进行了阐述,这一研究对信息检索技术具有一定的参考价值。
关键词:图片应用;搜索技术;文本图片;搜索引擎;系统评价
目前的Internet应用已经取得了长足的发展,随着网络带宽和终端计算能力的不断增强,图片被越来越多的应用于内容的表达和信息的承载。图片的信息是指图片的内容所表征的意义,这种的信息承载方式与传统的文本的信息是不一样的。由于文本的直观性和简单性,文本的信息即包含于本身;而图片的信息可以通过图片本身的内容传达出来,也可以通过相关文字的描述传达出来,于是图片便有了双重的信息载体。本文基于这一方向,对文本的图片搜索引擎完成了探讨,这一研究对信息检索技术具有一定的参考价值。
1 图片信息的技术
获取图片信息的技术可根据其来源的载体类型划分为基于内容与基于文本这两大类。前者是将单纯的图片内容作为分析与查找对象,而后者则是对与图片有关的文字信息进行分析,其工作方式与以往的文本查找方式差不多。
由于互联网具有边缘化这一特点,其信息组织相当自由,许多图片资料根据方式与风格的差异被组织到各不相同的地方。可根据各种方式自由的对文字与图片进行安排。然而统计数据显示,许多组织方式存在着一些共同点,这些共同点也反应了我们在获取信息方面的习惯。从而无限制的信息提取框架就有可能实现了。互联网上的图片与文本通常都是以组合的形式出现的,其中,HTML网页是我们见的最多的一种组织形式,因此,许多与图片相关的信息于可利用HTML挖掘来获取。
在网页中,HTML网页的应用是最为广泛的,对搜索引擎而言,它也是一个最重要的信息获取途径。互联网上拥有大量的HTML网页和多媒体资源。
在互联网上,Web搜索引擎技术已得到了广泛的引用,每日需抓取不计其数的HTML网页,这是一个非常有价值的资源库,然而,现在只有文本信息被用于Web搜索。若将资源库中的价值充分挖掘出来,则可实现图片、MP3以及Flash等多个搜索系统的建立。所以,我们就从通过对HTML网页的充分利用来创建Web图片搜索引擎开始。
2 文本图片检索系统探析
2.1 检索系统应用涉及领域
如今,图片应用及其搜索技术越来越成熟,图片检索系统也随之得到了广泛的应用。Google图片搜索等通用Web图片搜索引擎是现在应用最为的广泛的,它的服务对象是所有通用领域的用户。不仅如此,图片检索还被应用于许多专业领域,常见的有:
医药领域。大部分的医学及相关专业由于要进行诊断和疾病检查,故会涉及到可视信息资料,如:X光、扫描影像等。在相关信息的分析、传输以及存储方面,图片检索技术发挥了重要作用,图像处理是目前这个领域的研究重点,如:在肿瘤生长跟踪方面采用了特征检测。应用于这个领域的系统中已有成功的案例。
图形设计领域。重要现有的设计,对于这个领域的从业者而言,可获得许多素材与灵感,而图片检索系统可方便工作的开展,此外,还便于用户找到有特殊要求的作品。
出版领域。图片对于出版社、杂志社等单位十分重要,由于需求量较大,它们大多都有自己的图片库,传统的存储与查找所采取的归类方式较多。这个领域的工作人员在查找和选择图片方面所需时间较长,而图片检索系统则可提高图片查找和挑选的效率。
此外,图片检索还被应用于建筑设计、天文地理以及犯罪取证等领域。
2.2 用户检索方式技术
与网页检索相比,图片检索在检索方式上有较大区别。目前基本上只有关键字查询这种网页检索系统,因为在现有的考虑范围内只有文字可以描述网页内容。而用于描述图片的除了文字之外,还有图片自身。所以,图片的检索方式一般比较多,站在用户检索的角度来看,主要有目录式检索、关键字查询、实例式检索以及属性式检索四类。
⑴目录式检索。yahoo网页搜索的特点也体现在了其图片搜索上,对图片实行了分类,用户根据分类结构对查询范围进行细化。这种检索方式下的很多分类工作需要人工完成,所以,其代价也是很大的。
⑵关键字查询。目前,关键字检索方式适用于大型图片搜索引擎。用户输入与所需图片有关的文字,系统根据文字与图片的匹配度对与查询词相对应的图片进行查找。具有较快的检索速度是该检索方式的最大优势,且基于文本的索引技术已发展到成熟阶段。人工标引和自动提取是匹配信息与文字的两种方法。
人工标引在信息检索方面具有较高的准确度。不足的是人工标引的工作量较大,对于海量系统而言很难实现;另外,该方法具有较强的主观性,几乎无法将完整的信息反
文档评论(0)