信息检索模型99.ppt

信息检索模型99

* * * * * * * * * * * 对LSI的理解 最佳近似矩阵 从数据压缩的角度看,Xhat是秩为k的前提下矩阵X的全局最佳近似矩阵。 降维 LSI不同于向量空间模型(VSM)中文档和词汇的高维表示,而是将文档和词汇的高维表示投影在低维的潜在语义空间(Latent Semantic Space)中,缩小了问题的规模,得到词汇和文档的低维表示。 语义关联的发现 对应于小奇异值的奇异向量被忽略后,噪声被大量消减,而使语言单元之间的意义上的相关性显示出来。 潜在语义空间中(不论是文档空间,还是词汇空间),每个维度代表了一个潜概念(Latent Concept) 利用LSI进行检索 对查询式的要求 和传统的基于关键词的查询不同,潜语义检索允许用户提交类似于自然语言的查询条件,而不一定必须是几个分离的词汇。 查询式越长,提供的信息需求越充分,越明确 对查询式q进行处理 检索过程 检索过程就是把查询式的集合视为是一个虚拟的文件,检索的任务是把这个虚拟的文件和其他文件做相似性比较, 挑选最相似的出来 相似度计算方法可以采用线性代数理论中的各种方法,比如向量夹角等,根据实际情况而定 适用性 多数情况下,潜在语义索引的性能好于向量空间模型,因为利用了同现度 潜在语义索引的应用依赖于具体的文档集合 适用于词汇异构度很高的文档集合 从应用角度,计算量太大 框架定义完整,优化准则清楚 本章小结

文档评论(0)

1亿VIP精品文档

相关文档