医药信息检索：第2章（数学模型）.ppt

下载文档 降价啦

7
0
约7.96千字
约 43页
2022-07-30 发布于安徽
举报
版权申诉
保障服务

医药信息检索：第2章（数学模型）.ppt

1、本文档共43页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

代数论检索模型—向量空间模型 (4)检索不以标准的倒排档技术为基础，而是基于聚类文档，即通过计算文献之间的相似度，使属性相似的文献计量聚拢在一起，以提高检索效率。 (5)采用部分匹配策略和排序输出原理，提高了检索的灵活性。 (6)通过相关反馈技术自动修正提问向量，改进检索结果。缺点： (1)相似度计算的工作量巨大； (2)文献向量中各分量的值（标引词权值）较难确定； (3)对标引词两两正交的假设太僵硬等。概率论检索模型—经典概率检索模型概率模型（probabilistic model）基于概率排序原理，即文献应该根据它们与提问的相关概率来排序输出。所有检索系统都是通过处理它们所能获得的、决定哪些文献应被检出的信息来响应提问的。在实践中，人们认识到：现有的任何一种检索机制都不理想，一些不相关的文献常常被不适当地检出，而另一些更符合需要的文献却可能漏检了。概率检索理论清楚地认识到这种不确定性，即给定文献与给定提问之间存在某种相关概率。概率检索模型就是利用概率论的原理，通过赋予标引词某种概率值来表示这些词在相关文献集合或无关文献集合中的出现概率，然后计算某一给定文献与某给定提问相关的概率，最后系统据此做出检索决策。它基本上是一种基于Bayes决策理论的自适应模型。与前两种模型不同的是，它的提问式不是直接由用户编写的，而是由系统通过某种归纳式学习过程（相关反馈）来构造一个决策函数去表示提问。概率论检索模型—经典概率检索模型最早提出排序输出思想的是M.E.马龙（Maron）和J.L.库恩斯（Kuhns）。他们在1960年提出概率标引理论（probabilistic theory of indexing），标引作业描述为：给定某一特定文献d，对某个标引词来说，标引员的任务是作出这样的预测：如果某一类型用户B判定d为相关且在他的提问中只用一个检索词，则他可能选用该词的概率有多大。也就是说，标引员要估计的是：对使用该标引词检索文献的给定用户类型来说，某一给定文献的相关概率或权值。标引词加权和利用这种权值来计算文献的“相关性”（满足给定提问的概率）的方法就是概率标引理论的基础。他们的目标是根据文献与给定提问的相关值来对文献进行排序。概率论检索模型—经典概率检索模型他们首先定义一组事件： Di：获得的第i篇文献并发现它是相关的。 Ij ：要求获得以第j个词为标引词的某一主题领域的文献。 A：来自图书馆的情报 P(A, Di) ·P(A, Di, Ij ) P(A, Ij , Di)= P(A, Ij ) 公式中左端表示当某用户要求获得有关Ij的情报时，文献Di,满足其需要的概率；右端的P(A, Di)是文献Di的一个先验概率，通过图书馆的统计数据获得； P(A, Di, Ij )表示当某用户需要获得Di所含的情报时，他用Ij做检索词的概率；而对于给定的提问Ij来说，P(A, Ij )是一个常数。概率论检索模型—经典概率检索模型概率模型的主要优点是：（1）针对检索决策容易出错的问题，采用一种理论上更为严密的方式来进行决策。（2）容易与加权方法结合起来，为人们提供了一种理论基础。（3）不涉及布尔算符的使用，回避了构造布尔提问式的困难。（4）文献可按用户的期望值来排序输出。（5）吸收了相关反馈原理，可开发出理论上更为坚实的方法。缺点是：（1）布尔关系消失了（2）增加了存储和计算资源的开销（3）参数估计难度大。基于结构的数学模型概念 ○用户希望能够对文档中的某些结构组元中包含的信息进行检索。 ○例如，对出现在章节标题的词进行检索。 ○把文档内容与文档结构结合起来。基于结构的数学模型类型：（1）非重叠链表模型文档中的整个文本划分为非重叠文本区域，并用链表连接起来相同链表中的文本区域没有重叠，而不同链表中的文本区域可能会重叠 chapter section paragraph 基于结构的数学模型类型：（2）邻近节点模型文档上定义一个或多个分层索引结构每个索引结构是一个严格的层次结构 chapter section paragraph 浏览型数学模型概念 ○用户的兴趣可能不在于提交一个系统的查询。而是有意花一点时间来浏览文档空间，以寻找所关心的文档。 ○用户是进行文档空间的浏览而不是搜索。 ○浏览和搜索是不同的信息发现行为，通常来说，搜索比浏览更适合于有明确查找目标的用户。浏览型数学模型类型：（1）平面（平坦浏览）文档集可以被描述为平面上的点或是链表中的元素用户在这些文档上