潜在语义索引理论及其应用.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
教育教学 潜在语义索引理论及其应用 刘 健 (山东省 日照市曲阜师范大学,山东 日照 276826) 摘 要:潜在语义索引 (LSI)是一种信息检索代数模型,它使用统计计算的方法对大量的文本集进行分析,从而提取出词与词之间潜在的语义 结构,并用这种潜在的语义结构来表示词和文本,达到消除词之间的相关性和简化文本向量实现降维的目的。文章分析了潜在语义索引的理论基础: 向量空间模型和奇异值分解;阐述了潜在语义空间构成的具体步骤;并探讨了潜在语义索引在文本检索和图像检索等方面的应用。 关键字:潜在语义索引;VSM;SVD;信息检索 1引言 它称为 “伪文本”,记作q。 在现代信息检索系统中。通过关键词进行检索是最为常见的做 将提问式看作为普通文本,效仿 “词汇一文档”矩阵的建构方法, 法。大量研究表明,基于关键词的检索系统存在所谓 “同义词”和 根据索引词在提问式中出现的频次,也能得到一列向量,记作xq,用 “反义词”的固有缺陷:前者是指表达同一概念的词语可以有多个, 下式对q进行处理: 因此,用户查询中所用的词语很可能在相关文档中不存在,从而造成 = ■ 。, (3) 检出率下降;后者是指同一个词语可以表达多个概念,造成检出的文 Drip为提问式的向量表示,即得k维语义空间中提问式的坐标。 档中虽然包含该词语,但在上下文语境中的意思却非用户所期望,从 词汇、文本、提问式三者的坐标向量,构成了我们所需的潜在语 而导致准确率下降。潜在语义索引方法正是为了解决上述问题而提出 义空间。 的。 5潜在语义索引的应用 2潜在语义索引概述 5.1文本检索 潜在语义索引,也称隐性语义索引或隐含语义索引,用于知识获 5.1.1跨语言检索 取和展示的计算理论和方法,它使用统计计算的方法对大量的文本集 近几年对于基于潜在语义索引的跨语言检索有了快速发展,比如 进行分析,从而提取出词与词之间潜在的语义结构,并用这种潜在的 2010年宁健等发表的 《基于改进潜在语义分析的跨语言检索》采用基 语义结构来表示词和文本,达到消除词之间的相关性和简化文本向量 于奇异值矩阵分解的改进潜在语义分析的方法为生物医学文献双语摘 实现降维的目的。 要进行建模 [2]。 3潜在语义索引的理论基础 5.L2信息过滤 3.1向量空间模型 信息过滤技术结合了现有的信息检索方法,对解决网络信息的个性 化、动态化以及提高被查询信息对用户的可用度有很大作用。2008年 向量空间模型的基本思想是以向量来表示文本,它的优点在于处 张虹等发表的 《基于隐式反馈的LS1个性化信息过滤方法的研究》提出 理逆辑简单、快捷,它将非结构化的文本表示为向量形式,使得各种 数学处理成为可能。例如:2008年原媛等发表的 《基于向量空间的信 利用隐式反馈技术来解决如何提供给不同用户以不同信息结果这一问 题 [3]。 息检索模型的改进》中,因词语的同义和多义,不能满足文档向量相 5.1.3文本聚类 互独立方面,提出潜在语义索引模型[1]。

文档评论(0)

smdh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档