- 3
- 0
- 约2.42千字
- 约 36页
- 2018-05-24 发布于天津
- 举报
lecture18-lsi 第18讲 隐性语义索引 现代信息检索导论 教学文稿.ppt
现代信息检索 Introduction to Information Retrieval 现代信息检索 中科院研究生院2011年秋季课程《现代信息检索》 更新时间: Modern Information Retrieval 授课人:王斌 /~wangbin *改编自”An introduction to Information retrieval”网上公开的课件,地址 /IR-book/ 第18讲 隐性语义索引 Latent Semantic Indexing 2011/11/27 提纲 上一讲回顾 隐性语义索引 空间降维处理 LSI 在IR中的应用 提纲 上一讲回顾 隐性语义索引 空间降维处理 LSI 在IR中的应用 * 层次聚类 层次聚类的目标是生成类似于前面提到的Reuters目录的一个层次结构: 这个层次结构是自动创建的,可以通过自顶向下或自底向上的方法来实现。最著名的自底向上的方法是层次凝聚式聚类(hierarchical agglomerative clustering,HAC)。 * 单连接: 最大相似度(最短距离) * 组平均 * 四种HAC算法的比较 * 簇标签生成的例子 三种方法:选择质心向量中的突出词项,使用MI的差别式标签,使用离质心最近的文档的标题 三种方法的结果都不错 * 本讲内容 矩阵SVD分解 隐性语义索引LSI(Latent Semantic Indexing) LSI在IR中的应用 提纲 上一讲回顾 隐性语义索引 空间降维处理 LSI 在IR中的应用 * 回顾一下词项-文档矩阵 该矩阵是计算文档和查询相似度的基础,接下来我们要介绍,能否通过对该矩阵进行转换来获得文档和查询之间的一个更好的相似度计算方法? * 隐性语义索引LSI简介 我们将词项-文档矩阵转换成多个矩阵的乘积 这里我们使用的是一个特定的分解方法: 奇异值分解(singular value decomposition ,简称SVD) SVD: C = UΣV T (其中 C = 词项-文档矩阵) 利用SVD分解的结果我们来构造一个新的、改进的词项-文档矩阵 C′ 通过C′ 我们可以得到一个更好的相似度计算方法(相对于 C而言) 为了这种目的使用SVD被称为隐性语义索引( latent semantic indexing)或者简称 LSI。 * 例子C = UΣVT : 矩阵C 上面给出了一个标准的词项-文档矩阵,为简单起见,这里使用了布尔矩阵。 * 例子 C = UΣVT : 矩阵U 每个词项对应一行,每个min(M,N)对应一列,其中M为词项的数目,N是文档的数目。 这是个正交矩阵: 列向量都是单位向量; 任意两个列向量之间都是互相正交的。可以想象这些列向量分别代表不同的“语义”维度,比如政治、体育、经济等主题。矩阵元素 uij 给出的是词项i和第j个“语义”维度之间的关系强弱程度。 * 例子 C = UΣVT : 矩阵 Σ 这是个min(M,N) × min(M,N)的对角方阵。对角线上是矩阵C的奇异值。奇异值的大小度量的是相应“语义”维度的重要性。我们可以通过忽略较小的值来忽略对应的“语义”维度 * 例子C = UΣVT : 矩阵VT 每篇文档对应一列,每 min(M,N) 对应一行。同样,这也是一个正交矩阵: (i) 每个行向量都是单位向量; (ii) 任意两个行向量之间都是正交的; 同样每个行向量代表的是一个语义维度,矩阵元素vij 代表的是文档 i 和语义维度j的关系强弱程度 * 例子 C = UΣVT : 所有的四个矩阵 * LSI: 小结 词项-文档矩阵可以分解成3个矩阵的乘积 词项矩阵 U – 每个词项对应其中的一个行向量 文档矩阵 VT – 每篇文档对应其中的一个列向量 奇异值矩阵 Σ – 对角方阵,对角线上的奇异值代表的是每个“语义”维度的重要性 接下来我们要介绍这样做的原因。 提纲 上一讲回顾 隐性语义索引 空间降维处理 LSI 在IR
您可能关注的文档
- Lecture 11. Equilibrium, Welfare & Policy 范里安版《中级微观经济学》ppt讲解材料.ppt
- Lecture 11_ An Application - text classification 机器学习概论 教程文件.ppt
- Lecture 12 Adverbial Clauses 汉英翻译 幻灯片课件.ppt
- Lecture 12 cohesion andcoherence 英语词汇学 教材课程.ppt
- Lecture 12 商务广告的翻译 商务英语翻译教材.ppt
- Lecture 12. Monopoly 范里安版《中级微观经济学》ppt讲解材料.ppt
- Lecture 12_Foundation of Cluster Analysis 机器学习概论 教学教案.ppt
- Lecture 13 American English andBritish English 词汇学 幻灯片课件.ppt
- Lecture 13 Primary Production – Chemical Tracers 华盛顿大学-海洋化学教材.ppt
- Lecture 13. Factor Market 范里安版《中级微观经济学》ppt讲解材料.ppt
- Lecture19 Buddhism Nov 10 Chinese Philosophy Lectures杜兰大学中国哲学课堂教学PPT教学文稿.ppt
- Lecture19 NeoTaoism Nov 10 Chinese Philosophy Lectures杜兰大学中国哲学课堂教学PPT教学教案.ppt
- Lecture19-HiddenSurfaceRemoval 计算机图形学培训资料.ppt
- lecture19-websearch 第19讲 Web搜索 现代信息检索导论 培训资料.ppt
- Lecture2 信息安全测评与 及风险评估 .ppt
- Lecture2 英语专业教学文稿.ppt
- Lecture2 雅思阅读教材.ppt
- Lecture20 Chinese Buddhism Nov 15 Chinese Philosophy Lectures杜兰大学中国哲学课堂教学PPT教学教案.ppt
- lecture20-crawling 第20讲 信息采集 现代信息检索导论 教程文件.ppt
- Lecture21 GL & DM Nov 17 Chinese Philosophy Lectures杜兰大学中国哲学课堂教学PPT教学文稿.ppt
原创力文档

文档评论(0)