基于XML的信息检索的研究-开题报告 .pdfVIP

基于XML的信息检索的研究-开题报告 .pdf

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

毕业设计开题报告

1.结合毕业设计情况,根据所查阅的文献资料,撰写2000字左右的文

献综述:

文献综述

研究现状:

随着网络传送速度与计算机信息处理速度的提高,网页中对多媒体信息的使用变得十

分普及,特别是图像信息,己经成为表示网页内容不可缺少的组成部分。因此人们对多

媒体信息的检索需求也就随之随之变得特别迫切。但由于图像检索系统涉及了多学科的

知识,实现和应用的难度相当高,所以已有的图像检索系统都有这样或那样的缺陷。

而传统的信息检索主要集中于文字的检索,在多媒体方面的研究并不是很多。互联

网上的多媒体以图像为主,因此图像的检索就成为了目前研究的热点。

图像检索经历了两个阶段:第一阶段是以文本为基础的检索。第二阶段是以图像自身

的内容为基础的检索。

上个世纪70年代开始,有关图像检索的研究就已开始,当时主要是基于文本的图像

检索技术利用文本描述的方式描述图像的特征。到90年代以后,出现了对图像的内容

语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术,即基于内容的图

像检索技术。

而无论是什么引擎,它首先都必须遵循以下几个要点:

(1)索引文档的容量:现在最大的搜索引擎可能包含了超过100,000,000个链接,但这也

只是整个Web网上的一小部分。因为收集资料的Robot,只能从“已知”的链接开始收

集网页资料,而只有一小部分Web网页和这些“已知”的网页有连接;现在还没有一

个搜索引擎能够随网页内容的更新比较及时地更新索引;

(2)覆盖面:地理覆盖面和主题覆盖面;

(3)索引更新频率:不同的搜索引擎,索引更新频率相差很大,有的是几周,有的是一年。

索引更新频率有两种定义,一种比较少用的定义是新的网页能被收录进索引数据库中,

另一种是同一页多少时间才被检查一次,有必要时更新索引。有的搜索引擎会对经常更

新的网页和多人访问的网页进行更频繁的重建索引工作;

(4)采集过程:采集过程有宽度优先、深度优先两种算法;一般认为宽度优先对扩大内容

的覆盖面有利,深度优先算法有助于提供更多的细节资料;

(5)索引算法:有的搜索引擎只处理元标记和一小部分文档内容,而有一些搜索引擎则是

对全文进行索引;

(6)结果显示:有的搜索引擎只显示网页的标题,有些则有更详细的一些信息,比如网页

的内容,更新日期等;

(7)查询算法:一个优秀的查询算法是很重要的,最基本的布尔查询,短语查询,有的搜

索引擎还提供指定属性的查询,比如可以指定对网页的作者、主题进行查询。另外有的

搜索引擎还采用了相关度反馈、概念查询等算法;

(8)用户界面:很多搜索引擎都提供了简单查询和高级查询两个界面。并且提供了必要的

帮助和范例。

在检索原理上,无论是基于文本的图像检索还是基于内容的图像检索,主要包括三方

面:一方面对用户需求的分析和转化,形成可以检索索引数据库的提问;另一方面,收

集和加工图像资源,提取特征,分析并进行标引,建立图像的索引数据库;最后一方面

是根据相似度算法,计算用户提问与索引数据库中记录的相似度大小,提取出满足阈值

的记录作为结果,按照相似度降序的方式输出。

为了进一步提高检索的准确性,许多系统结合相关反馈技术来收集用户对检索结果的反

馈信息,这在CBIR中显得更为突出,因为CBIR实现的是逐步求精的图像检索过程,

在同一次检索过程中需要不断地与用户进行交互。

基于文本和基于内容是图像检索发展的两个分支,不过从目前图像检索研究的趋势而

言,尤其结合网络环境下图像的特征——嵌入在具有文本内容的Web文档中,出现了

三个不同的研究着眼点。

立足于文本,对图像进行检索。试图将传统的文本检索技术移植于对多媒体信息的检

索上,因为基于文本的检索技术发展已经成熟。如Rank方法、概率方法、位置方

法、摘要方法、分类或聚类方法、词性标注法等,不仅技术发展较为成熟,同时分析和

实现的难度略小。但是因为受控词汇本身的局限,易歧义,更新慢,所以不太容易应对

网络上日新月异的各类图像。

立足于图像内容,对图像进行分析和检索。相比而言,尽管图像检索已经出现了诸如

直方图、颜色矩、颜色集等多种表征图像特征的方法,但是要突破对低层次特征的分析,

实现更高语义上的检索,实现难度大,进展慢。不过,基于内容的图像检索建立在多媒

体信息的内容语义上,能够更为客观地反映媒体本质的特征。

结合文本和内容,进行融合性研究。发挥各自的优势促进图像的高效、简单检索方式

文档评论(0)

197****4414 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档