《毕业论文改WEB中图像的检索技术研究》.doc

下载文档 降价啦

0
0
约1.9万字
约 14页
2016-12-13 发布于贵州
举报
版权申诉
保障服务

《毕业论文改WEB中图像的检索技术研究》.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

WEB中图像的检索技术研究第一章前言 1.1引言伴随网络技术的迅猛发展，图片的来源不断在扩大，容量超大的高速存储系统给图片的海量存储给予了基本保障，各行业对图像的趋于增多，图像资源管理和搜索也愈发重要。但由于网络本身架构、管理的种种问题，想在网络精准、高效地找到所需的图像，却变成了件非常不易之事。由于网络现在的问题：内容没有良好的架构；网络海量信息不断的增多。由此，便出现了搜索引擎。虽然搜索引擎的出现给用户提供了不少的便捷，但是离精准、快速、全面的检索到自己所想要的图像还是有一段距离，所以对图像搜索的研究还要下大力气研究。依照现有的搜索引擎和国内外有关研究人员的种种资料表明，现在的网络资源和搜索引擎的特点如下： (1)搜索的数据种类多样，如视频、图片、文字等。存取协议也是种类繁多，如HTTP、FTP、News等等； (2)索引数据量巨大，从而导致不可能有某一个数据库可以包括整个网络的索引，当下最大的搜索引擎，其索引也仅仅覆盖了网络的一小部分而已； (3)资源消耗过大，系统需将HTML文档传送到本地之后再进行分析，占用昂贵的网络和CPU资源，从而增加被搜索结点的压力。此外由于搜索引擎大多是集中式的，所以搜索引擎服务器对硬件配置的要求也极高，这样才能处理巨大的数据量以及及时响应用户的检索请求； (4)不能有效解决搜索失效的问题，大多时候，搜索引擎会返回无用的查询结果； (5)各种检索工具各行其事，无法相互协作，共享资源，也是一种资源的浪费。 1.2现今的图像检索技术近些年伴随着用户对图像搜索需求不断的增长，各类图像搜索引擎由此诞生，它们以不同的搜索方式为用户提供各类检索途径，使得网上图像地检索变得简单，虽然还不太完善，但已经可以满足大多数用户的要求。 1.2.1搜索引擎的工作原理最初的搜索引擎结构，是让Spider不停的从Web收集数据，存储在搜索引擎数据库当中。用户靠搜索引擎服务器的Web接口，发出搜索请求，让Web Server通过CGI或者其它技术访问数据库，并且将用户搜索请求变成相对应的数据存取语句，发送给引擎处理，然后把结果通过网页显示反馈给用户。网络检索的基本原理其实就是通过Spider定期在web上运行，发现新的数据，把其取回到本地数据库中，让用户查询的请求可通过查询本地的数据库得到。常用的网络信息检索实现机制可分为两种，通过手工方式对网页进行索引是一种方法，但它的缺陷是Web覆盖率低，且不能保证是最新的息。查询匹配就是对用户写入的关键字和网页描述、标题来匹配，并非是通过对全文匹配进行的。对网页进行自动的索引是第二种，这类方法能自动实现文档分类，这种方法是采用信息提取技术。可是在分类精准性上也许不如手工进行的分类。对当下所有运行中的搜索工具来讲，基本上都会有一个机器人定期的访问一些站点，以检查这些站点最近变化，同时找到新的站点。一般站点都会有个robot.txt文件来标注服务器不希望机器人访问的区域，机器人都必须遵守这规定。假如是自动索引，机器人在得到一个页面以后，需根据该页面的内容进行索引，依据它的关键字把它归到一个类中。页面信息是通过元数据这类形式来保存的，经典的元数据有标题、IP地址、该页面简要的介绍、关键字抑或是索引短语、文件大小和最后更新的日期等等。虽然元数据有一定的标准，但是很多站点都是使用自己的模板。文档提取的机制、索引策略这些对搜索引擎（web）的有效性有巨大的联系。高级搜索选项包括：布尔方法、短语匹配、自然语言的处理。一个检索所产生的结果按照提取机制的不同被分成不同等级提交给用户，以关联度的大小排序。每个提取出来的文档元数据会显示给用户。也会包括该文档所在的URL地址。此外有些关于某个主题专门的搜索引擎，只针对某个主题的内容来进行检索和处理，如此一来信息的取全率、精准度也相对会较高。当前，图片搜索引擎大多通过以下两类方法来识别图像： (1)自动查找图像档。通过IMGSRC和HREF（HTML标签）来检查是否有可显示的图片文件，IMGSRC表达的是“显示下面的图像文件”，导向嵌入式的图片；HREF则是用来表示“下面是一个链接”，导向被链接的图片。引擎通过检查扩展名来判断这个导向是否是图片文件，假若文件扩展名是.png、.jpg、.gif等，则说明是一个可显示的图片文件。 (2)人工干预找出图片。进行归类，靠人工对网上的图像及站点进行筛选。这类方法可产生精准的查询体系，可是劳动强度过大，因此处理图像的数量有限。由于图像与文本不同，要人们按照自身的理解来说明其蕴含的意义，比文字更趋于感性。因此对于计算机，图像检索的难度比文本的查询的难度要高出很多。 1.2.2 图像搜索引擎检索途径 1.关键词检索传统图像检索技术是靠关键字精确的匹配来检索，即输入关键字，输出图片