信息存储与检索PPT讲解.ppt

信息存储与检索PPT讲解

* * * * * * * * * * * * * * * * * * * * * * * 潜语义标引模型的提出 自然语言文本中的词汇(术语)具有一词多义和一义多词的特点。 由于一词多义, 基于精确匹配的检索算法会报告许多用户不要的东西: 处理 什么地方处理旧家具? 你去把那个叛徒处理了 处理自然语言很难 由于一义多词, 基于精确匹配的检索算法又会遗漏许多用户想要的东西: “互联网”,“万维网”,“因特网”,“国际互联网”等 词汇-文档矩阵 将自然语言中的每个文档视为以词汇为维度的空间中的一个点,认为一个包含语义的文档出现在这种空间中,它的分布绝对不是随机的,而是服从某种语义结构。 同样地,也将每个词汇视为以文档为维度的空间中的一个点。文档是由词汇组成的,而词汇又要放到文档中去理解,体现了一种“词汇-文档”双重概率关系。 潜语义标引模型的构建 词-文档矩阵的构建 文档库是用词-文档矩阵Amn来表示的。m为文档库中不同词的个数,一个词对应矩阵A中的一行;n表示文档库中的文档数,每个文档对应矩阵A中的一列;aij表示第i个词在第j个文档中出现的频率TF。 第一个词在各个文档中出现的频率 第一个文档中各个词出现的频率 潜语义标引模型的构建 奇异值分解SVD A可以分解为三个矩阵T0, S0, D0T(D0的转置)的积. 这种分解叫做单值分解(singlar value decom

文档评论(0)

1亿VIP精品文档

相关文档