第4讲 信息资源管理技术-信息检索.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索技术 信息检索示意图 信息检索涉及内容 信息检索理论(数学检索模型) 信息标引与组织 检索技术与方法 信息可视化技术 信息检索技术与系统的评价 信息检索理论简述 所谓数学模型,是指为了某种特定目的,通过对现实世界的某一特定对象做出一些必要的简化与假设,运用适当的数学工具得到的一种数学结构。 集合论模型 集合论与布尔逻辑 代数论模型 向量空间(以线性代数、矩阵计算为基础,利用代数知识揭示信息间关系的检索模型)与神经网络(神经网络是指由大量神经元互连在一起所组成的神经结构,把神经元之间相互作用的关系进行数学模型化就可以得到神经网络模型。) 概率论模型 基于概率论原理来理解和解决信息检索问题。在概率理论的框架基础之上,目前提出的检索模型主要有早期的经典概率模型(又称为“二值独立检索模型”,即Binary Independence Retrieval,简称BIR)以及后来基于Bayesian网络的推理网络模型(Inference Network Model)和信念网络模型(Belief Network Model)等。 其他检索模型 遗传算法 粗糙集 检索常识 检索运算符 and or not * + / 集合运算 A∩B AUB 检索表达式 A * ( B + C ) 顺排检索技术 定义 顺排检索就是将文档中每一条记录顺序与提问挡集合匹配的检索 方式 以文档记录去匹配提问检索式,典型技术:表展开法,树展开法 应用 批量检索、定题情报提供、个性化信息推送服务 表展开法原理 表展开法主要用于批处理检索,其原理是将提问逻辑式集中形成提问档,以后借助这个提问档对新入库的数据成批检索,实际上是将每一条记录匹配提问档的过程。 该算法需要将用户提问转换成一个可以用来实现检索的提问表。如提问式: (A+B)*(D+C)的展开表如下: (A+B)*(C+D) 的展开表形式 表展开法实现过程 前处理 将提问逻辑式按一定规则展开送入一个表格中 后处理 将前处理填写后表格中的空格按一定规则补充填满 检索实现 取一条记录,生成检索标识表,用标识表中每一个检索词去匹配提问挡,全部匹配完,检查命中者并记录,在取下一条。 倒排检索理解 倒排检索概念 将顺排文档中可检索字段生成倒排文档,检索时,用户的检索词针对倒排档进行,检索词间的逻辑运算在词间的记录号之间进行。 倒排档结构 倒排档建立 取出索引内容,归并相同内容,形成倒排文档 倒排检索实现(逆波兰方法) 逆波兰表达式 A*(B+C)+D ABC+*D+ 运算符优先级 - * + 操作指令 1 取词操作,2 转出操作,3-5 运算操作 超文本检索概念 超文本检索不仅仅是一种信息检索技术,更确切地说是一种信息的组织结构。超文本是将相关信息通过超链方式关联为一体,确保在浏览和阅读信息的同时,可以顺着超链“跳跃”阅读相关信息。这种方式符合人们联想式的阅读和思维习惯,受到人们的普遍欢迎。 超文本检索的实现方式,主要通过超链接(URL)来实现的。 动态超文本生成技术 目的:自动将全文中的知识点建立连接 (1)锚点词库的建立 (2)全文锚点的自动生成 (3)锚点信息的激活 全文与锚点词库的关系结构图 超文本与全文检索 信息检索相关技术(跨语言检索) 提问式翻译法 文献翻译法 提问式—文献翻译法 中间翻译法 提问式翻译法(跨语言检索) 提问式翻译的过程是把源语言的提问式利用机器翻译技术翻译成目标语言提问,再进行单语言检索。 △ 基于词典 (dictionary -based) △ 基于语料库(corpus-based) △ 混和式(hybrid) 文献翻译法(跨语言检索) 文献翻译方法不对提问式进行翻译,而是把数据库中用目标语言描述的文献翻译成与提问描述相一致的源语言形式,再通过提问式与信息库的匹配,完成检索过程。运用文献翻译方法进行跨语言检索,返回给用户的结果是用源语言描述的,用户能够方便地选择利用。 提问式—文献翻译法(跨语言检索) 是将源语言提问式翻译成目标语言提问式,然后与目标语言描述的信息库进行匹配,检出相关信息,再把检索结果的全部或部分翻译成源语言描述的信息。 检索结果的翻译一般选择部分翻译,因为与全部翻译相比,部分翻译的工作量较少,容易提高翻译的效率和质量。 中间翻译法(跨语言检索) 对于提问中

文档评论(0)

180****2140 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档