信息存储与检索PPT讲解.ppt

下载文档 降价啦

47
0
约8.77千字
约 83页
2017-02-08 发布于湖北
举报
保障服务

信息存储与检索PPT讲解.ppt

信息存储与检索PPT讲解

* * * * * * * * * * * * * * * * * * * * * * * 潜语义标引模型的提出自然语言文本中的词汇(术语)具有一词多义和一义多词的特点。由于一词多义, 基于精确匹配的检索算法会报告许多用户不要的东西：处理什么地方处理旧家具？你去把那个叛徒处理了处理自然语言很难由于一义多词, 基于精确匹配的检索算法又会遗漏许多用户想要的东西： “互联网”，“万维网”，“因特网”，“国际互联网”等词汇-文档矩阵将自然语言中的每个文档视为以词汇为维度的空间中的一个点，认为一个包含语义的文档出现在这种空间中，它的分布绝对不是随机的，而是服从某种语义结构。同样地，也将每个词汇视为以文档为维度的空间中的一个点。文档是由词汇组成的，而词汇又要放到文档中去理解，体现了一种“词汇－文档”双重概率关系。潜语义标引模型的构建词－文档矩阵的构建文档库是用词－文档矩阵Amn来表示的。m为文档库中不同词的个数，一个词对应矩阵A中的一行；n表示文档库中的文档数，每个文档对应矩阵A中的一列；aij表示第i个词在第j个文档中出现的频率TF。第一个词在各个文档中出现的频率第一个文档中各个词出现的频率潜语义标引模型的构建奇异值分解SVD A可以分解为三个矩阵T0, S0, D0T(D0的转置)的积. 这种分解叫做单值分解(singlar value decom

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

信息存储与检索PPT讲解.ppt