潜在语义索引理论及其的应用.docVIP

下载本文档

6
0
约3.1千字
约 8页
2018-11-02 发布于福建
举报
版权申诉

潜在语义索引理论及其的应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

潜在语义索引理论及其的应用

潜在语义索引理论及其的应用　　摘要：潜在语义索引（LSI）是一种信息检索代数模型，它使用统计计算的方法对大量的文本集进行分析，从而提取出词与词之间潜在的语义结构，并用这种潜在的语义结构来表示词和文本，达到消除词之间的相关性和简化文本向量实现降维的目的。文章分析了潜在语义索引的理论基础：向量空间模型和奇异值分解；阐述了潜在语义空间构成的具体步骤；并探讨了潜在语义索引在文本检索和图像检索等方面的应用。　　关键字：潜在语义索引；VSM；SVD；信息检索　　1 引言　　在现代信息检索系统中，通过关键词进行检索是最为常见的做法。大量研究表明，基于关键词的检索系统存在所谓“同义词”和“反义词”的固有缺陷：前者是指表达同一概念的词语可以有多个，因此，用户查询中所用的词语很可能在相关文档中不存在，从而造成检出率下降；后者是指同一个词语可以表达多个概念，造成检出的文档中虽然包含该词语，但在上下文语境中的意思却非用户所期望，从而导致准确率下降。潜在语义索引方法正是为了解决上述问题而提出的。　　2 潜在语义索引概述　　潜在语义索引，也称隐性语义索引或隐含语义索引，用于知识获取和展示的计算理论和方法，它使用统计计算的方法对大量的文本集进行分析，从而提取出词与词之间潜在的语义结构，并用这种潜在的语义结构来表示词和文本，达到消除词之间的相关性和简化文本向量实现降维的目的。　　3 潜在语义索引的理论基础　　3.1 向量空间模型　　向量空间模型的基本思想是以向量来表示文本，它的优点在于处理逆辑简单、快捷，它将非结构化的文本表示为向量形式，使得各种数学处理成为可能。例如：2008年原媛等发表的《基于向量空间的信息检索模型的改进》中，因词语的同义和多义，不能满足文档向量相互独立方面，提出潜在语义索引模型[1]。　　3.2 矩阵分解方式　　早先信息检索利用正交分解方法，但这种方法已经被奇异值分解取代。　　对词汇一文本矩阵A的奇异值分解可以用以下公式表示：　　（1）　　其中U是t×t的正交矩阵，它的每一列是A的左奇异向量，V是d×d正交矩阵，它的每一列是A的右奇异向量， Σ是t×d对角矩阵，对角线元素是A的奇异值，按大小顺序排列，即λ1≥λ2≥……≥λmin（t，d）。A的k秩近似Ak是让A的除了前k个最大奇异值以外的奇异值都置为零。得到以下公式：　　（2）　　其中Uk是U的前k列形成的t×k矩阵，Vk是V的前k列形成的d×k矩阵，Σk是　　A的k个虽大奇异值形成的k×k对角矩阵。　　4 潜在语义空间构成的具体步骤　　4.1 “词汇-文档”矩阵的形成　　在潜在语义索引中，则需要首先构建一个词汇-文档矩阵X。由各索引词在每篇文本中的出现频率生成词汇-文档矩阵X，该矩阵中，第i行第j列的元素数值Xij表示第i个索引词在第j篇文本中出现的频率。　　4.2 奇异值分解　　对X进行奇异值分解后，得T、S、D’三个矩阵，S为r阶对角矩阵，对角线元素为奇异值，T为t×r阵，D’为r×d阵。每一词汇、每篇文本都能根据分解结果，在一个几何空间内，找到其相应的固定点，然后，可以依据其相互间距离之远近来判断其相关程度之高低，词汇的空间位置由t×r阵T而定，文本则由r×d阵D而定，该空间就被称为r维潜在语义空间。　　4.3 提问式的几何表示　　词汇和文本在空间内定下坐标后，还必须为提问式找到其几何表示方法使它能在同一个k维语义空间里表示，然后与空间里的文本进行比较。由于提问式和文本相似，通常也由多个词汇构成，因此可以将它称为“伪文本”，记作q。　　将提问式看作为普通文本，效仿“词汇-文档”矩阵的建构方法，根据索引词在提问式中出现的频次，也能得到一列向量，记作Xq，用下式对q进行处理：　　（3）　　Dq即为提问式的向量表示，即得k维语义空间中提问式的坐标。　　词汇、文本、提问式三者的坐标向量，构成了我们所需的潜在语义空间。　　5 潜在语义索引的应用　　5.1 文本检索　　5.1.1 跨语言检索　　近几年对于基于潜在语义索引的跨语言检索有了快速发展，比如2010年宁健等发表的《基于改进潜在语义分析的跨语言检索》采用基于奇异值矩阵分解的改进潜在语义分析的方法为生物医学文献双语摘要进行建模 [2]。　　5.1.2 信息过滤　　信息过滤技术结合了现有的信息检索方法，对解决网络信息的个性化、动态化以及提高被查询信息对用户的可用度有很大作用。2008年张虹等发表的《基于隐式反馈的LSI个性化信息过滤方法的研究》提出利用隐式反馈技术来解决如何提供给不同用户以不同信息结果这一问题[3]。　　5.1.3 文本聚类　　潜在语义索引可用于文本聚类中，提高文本聚类的准确