潜在语义标引及其应用.pptVIP

  • 42
  • 0
  • 约2.65千字
  • 约 41页
  • 2018-08-31 发布于江苏
  • 举报
潜在语义标引及其应用

潜在语义标引及其应用 Wang Jimin Nov 11, 2005 Outline 矩阵的奇异值分解 (SVD) LSI 与SVD LSI的应用 Introduction 在文档集合中假设词语之间具有独立性(正交假设),一篇文档可用向量空间模型(VSM)中的一个向量来表示,进而计算查询与文档间的相似性,进行信息检索 但自然语言中词语的同义性和多义性是普遍存在的,如“计算机与电脑”、“virus”、“bank”。 词与词之间是有关联关系的 Introduction 如何修正“正交假设”的缺陷与不合理性,并将文本检索从离散的索引词匹配深入到概念或语义匹配的层面上,就成为代数检索迫切需要解决的问题 M. W. Berry 和S. T. Dumais 在20世纪80年代末提出了一种新的信息检索模型:潜在语义标引(Latent Semantic Indexing,LSI),它可以看作经典向量空间模型(VSM)的一种改进 Introduction LSI是一种建立在统计之上的学习方法:它试图发现对象之间的关联模式及其隐藏的对象间的结构关系。 LSI方法最初应用于文本信息检索领域,它可以有效地解决了同义词和多义词的问题,通过识别文本中的同义词, LSI将信息检索精度提高了10%--30%. 随着应用领域的不断拓展, LSI已在信息过滤、信息分类/聚类、交叉语言检索、信息理解、判

文档评论(0)

1亿VIP精品文档

相关文档