信息存储与检索PPT.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息存储与检索PPT

* * * * * * * * * * * * * * * * * * * * * * * 潜语义标引模型的提出 自然语言文本中的词汇(术语)具有一词多义和一义多词的特点。 由于一词多义, 基于精确匹配的检索算法会报告许多用户不要的东西: 处理 什么地方处理旧家具? 你去把那个叛徒处理了 处理自然语言很难 由于一义多词, 基于精确匹配的检索算法又会遗漏许多用户想要的东西: “互联网”,“万维网”,“因特网”,“国际互联网”等 词汇-文档矩阵 将自然语言中的每个文档视为以词汇为维度的空间中的一个点,认为一个包含语义的文档出现在这种空间中,它的分布绝对不是随机的,而是服从某种语义结构。 同样地,也将每个词汇视为以文档为维度的空间中的一个点。文档是由词汇组成的,而词汇又要放到文档中去理解,体现了一种“词汇-文档”双重概率关系。 潜语义标引模型的构建 词-文档矩阵的构建 文档库是用词-文档矩阵Amn来表示的。m为文档库中不同词的个数,一个词对应矩阵A中的一行;n表示文档库中的文档数,每个文档对应矩阵A中的一列;aij表示第i个词在第j个文档中出现的频率TF。 第一个词在各个文档中出现的频率 第一个文档中各个词出现的频率 潜语义标引模型的构建 奇异值分解SVD A可以分解为三个矩阵T0, S0, D0T(D0的转置)的积. 这种分解叫做单值分解(singlar value decomposition),简称SVD A=T0*S0*D0T 降维 把S0的m个对角元素的前k个保留, 后m-k个置0, 我们可以得到一个新的近似的分解: Xhat=T*S*DT 代数模型 ——神经网络模型(Neural Networks Model) ta tb tc tn tc tb ta t1 dN dj+1 dl dj … … … … 查询词语 文档词语 文档 神经网络模型的构建 信息检索处理过程 1.由第一层的查询词语结点ta、tb和tc分别向对应的第二层文档词语结点发出信息; 2.文档词语结点ta、tb和tc又产生信息并向第三层的相关文档结点传送; 3.文档结点在收到文档词语结点发送的信号后产生新的信号并返回到文档词语结点; 4.过程3将会重复进行直到信号不断衰减而终止。 信号强度的确定 提问结点向文档词语结点发送信号,其作用强度分量由向量模型中提问词的权值派生出来: 文档词语结点向文档结点传递信号,其作用分量由向量模型中文档词语的权值派生出来: 信号强度的确定 信号传递第一阶段结束后,与文档dj相关联的文档结点的活跃值可以表示为: 概率模型 ——推理网络模型(Inference Networks Model) 贝叶斯(Bayesian)网络 贝叶斯网络可以看作是一个有向无环图(Directed Acyclic Graph,DAG)。图中的结点一般用来表示随机变量,有向边用于描述随机变量之间的因果关系,而因果关系影响力的大小(或权值)则用条件概率来表示。 贝叶斯(Bayesian)网络 贝叶斯网络可以用联合概率分布的方式表达结点之间的依赖关系: P(x1)称为网络的先验概率,它由具体应用系统的已有知识和语义来定义或决定;其余各项则称为条件概率。 推理网络模型 * 文献Dj t1 t2 ti tn Q Q2 Q1 用户查询I … and OR OR … 概率模型 ——信任度网络模型(Belief Networks Model) 信任度网络模型 文档D1 t1 t2 ti tn 查询Q … 文档Dj 文档Dn … 结构化文本模型(Structured Text Retrieval Model) ——基于非重叠链表模型(Non-overlapping List Model) ——基于邻近节点的模型(Proximal Node Model) 结构化文本检索 结构化文本 指和表达的思想内容相对应,在物理形式上有明显的组织结构和层次关系的文本,一般在文本信息中按照元素的包含关系加入文本的结构信息。 结构化文本检索 将文本中的内容信息与文档结构信息相结合的检索模型。 基于非重叠链表模型 链表0:章 链表1:节 链表2:段 基于邻近节点的模型 …… …… 章 节 段 大爆炸 10 256 48234 … . . . . . . 浏览模型(Browsing Model) ——扁平浏览模型(Flat Browsing Model) ——结构导向模型(Structure Guided Model) ——超文本模型(Hypertext Model) 浏览模型 平坦模型把文档(集)看成是一个平坦的文档空间。由于是平坦的,这种模型的导航关系不清楚; 结构导向模型提供了层次性目录式的导

文档评论(0)

2232文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档