基于XML的信息检索的研究-开题报告 .pdfVIP

下载本文档

0
0
约8.83千字
约 10页
2024-11-22 发布于宁夏
举报
版权申诉

基于XML的信息检索的研究-开题报告 .pdf

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

毕业设计开题报告

1．结合毕业设计情况，根据所查阅的文献资料，撰写2000字左右的文

献综述：

文献综述

研究现状：

随着网络传送速度与计算机信息处理速度的提高，网页中对多媒体信息的使用变得十

分普及，特别是图像信息，己经成为表示网页内容不可缺少的组成部分。因此人们对多

媒体信息的检索需求也就随之随之变得特别迫切。但由于图像检索系统涉及了多学科的

知识，实现和应用的难度相当高，所以已有的图像检索系统都有这样或那样的缺陷。

而传统的信息检索主要集中于文字的检索，在多媒体方面的研究并不是很多。互联

网上的多媒体以图像为主，因此图像的检索就成为了目前研究的热点。

图像检索经历了两个阶段:第一阶段是以文本为基础的检索。第二阶段是以图像自身

的内容为基础的检索。

上个世纪70年代开始，有关图像检索的研究就已开始，当时主要是基于文本的图像

检索技术利用文本描述的方式描述图像的特征。到90年代以后，出现了对图像的内容

语义，如图像的颜色、纹理、布局等进行分析和检索的图像检索技术，即基于内容的图

像检索技术。

而无论是什么引擎，它首先都必须遵循以下几个要点：

(1)索引文档的容量：现在最大的搜索引擎可能包含了超过100,000,000个链接，但这也

只是整个Web网上的一小部分。因为收集资料的Robot，只能从“已知”的链接开始收

集网页资料，而只有一小部分Web网页和这些“已知”的网页有连接；现在还没有一

个搜索引擎能够随网页内容的更新比较及时地更新索引；

(2)覆盖面：地理覆盖面和主题覆盖面；

(3)索引更新频率：不同的搜索引擎，索引更新频率相差很大，有的是几周，有的是一年。

索引更新频率有两种定义，一种比较少用的定义是新的网页能被收录进索引数据库中，

另一种是同一页多少时间才被检查一次，有必要时更新索引。有的搜索引擎会对经常更

新的网页和多人访问的网页进行更频繁的重建索引工作；

(4)采集过程：采集过程有宽度优先、深度优先两种算法；一般认为宽度优先对扩大内容

的覆盖面有利，深度优先算法有助于提供更多的细节资料；

(5)索引算法：有的搜索引擎只处理元标记和一小部分文档内容，而有一些搜索引擎则是

对全文进行索引；

(6)结果显示：有的搜索引擎只显示网页的标题，有些则有更详细的一些信息，比如网页

的内容，更新日期等；

(7)查询算法：一个优秀的查询算法是很重要的，最基本的布尔查询，短语查询，有的搜

索引擎还提供指定属性的查询，比如可以指定对网页的作者、主题进行查询。另外有的

搜索引擎还采用了相关度反馈、概念查询等算法；

(8)用户界面：很多搜索引擎都提供了简单查询和高级查询两个界面。并且提供了必要的

帮助和范例。

在检索原理上，无论是基于文本的图像检索还是基于内容的图像检索，主要包括三方

面：一方面对用户需求的分析和转化，形成可以检索索引数据库的提问；另一方面，收

集和加工图像资源，提取特征，分析并进行标引，建立图像的索引数据库；最后一方面

是根据相似度算法，计算用户提问与索引数据库中记录的相似度大小，提取出满足阈值

的记录作为结果，按照相似度降序的方式输出。

为了进一步提高检索的准确性，许多系统结合相关反馈技术来收集用户对检索结果的反

馈信息，这在CBIR中显得更为突出，因为CBIR实现的是逐步求精的图像检索过程，

在同一次检索过程中需要不断地与用户进行交互。

基于文本和基于内容是图像检索发展的两个分支，不过从目前图像检索研究的趋势而

言，尤其结合网络环境下图像的特征——嵌入在具有文本内容的Web文档中，出现了

三个不同的研究着眼点。

立足于文本，对图像进行检索。试图将传统的文本检索技术移植于对多媒体信息的检

索上，因为基于文本的检索技术发展已经成熟。如Rank方法、概率方法、位置方

法、摘要方法、分类或聚类方法、词性标注法等，不仅技术发展较为成熟，同时分析和

实现的难度略小。但是因为受控词汇本身的局限，易歧义，更新慢，所以不太容易应对

网络上日新月异的各类图像。

立足于图像内容，对图像进行分析和检索。相比而言，尽管图像检索已经出现了诸如

直方图、颜色矩、颜色集等多种表征图像特征的方法，但是要突破对低层次特征的分析，

实现更高语义上的检索，实现难度大，进展慢。不过，基于内容的图像检索建立在多媒

体信息的内容语义上，能够更为客观地反映媒体本质的特征。

结合文本和内容，进行融合性研究。发挥各自的优势促进图像的高效、简单检索方式

您可能关注的文档

文档评论（0）

197****4414 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基于XML的信息检索的研究-开题报告 .pdfVIP