信息检索模型99.ppt

下载文档 降价啦

1
0
约2.05万字
约 99页
2018-03-31 发布于广东
举报
保障服务

信息检索模型99.ppt

信息检索模型99

* * * * * * * * * * * 对LSI的理解最佳近似矩阵从数据压缩的角度看，Xhat是秩为k的前提下矩阵X的全局最佳近似矩阵。降维 LSI不同于向量空间模型（VSM）中文档和词汇的高维表示，而是将文档和词汇的高维表示投影在低维的潜在语义空间（Latent Semantic Space）中，缩小了问题的规模，得到词汇和文档的低维表示。语义关联的发现对应于小奇异值的奇异向量被忽略后，噪声被大量消减，而使语言单元之间的意义上的相关性显示出来。潜在语义空间中（不论是文档空间，还是词汇空间），每个维度代表了一个潜概念（Latent Concept）利用LSI进行检索对查询式的要求和传统的基于关键词的查询不同，潜语义检索允许用户提交类似于自然语言的查询条件，而不一定必须是几个分离的词汇。查询式越长，提供的信息需求越充分，越明确对查询式q进行处理检索过程检索过程就是把查询式的集合视为是一个虚拟的文件，检索的任务是把这个虚拟的文件和其他文件做相似性比较, 挑选最相似的出来相似度计算方法可以采用线性代数理论中的各种方法，比如向量夹角等，根据实际情况而定适用性多数情况下，潜在语义索引的性能好于向量空间模型，因为利用了同现度潜在语义索引的应用依赖于具体的文档集合适用于词汇异构度很高的文档集合从应用角度，计算量太大框架定义完整，优化准则清楚本章小结

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

信息检索模型99.ppt