第四章矩阵的因子分解.ppt

第四章矩阵的因子分解

三 个矩阵有非常清楚的含义:第一个矩阵V中的每一行表示意思相关的一类词,其中的每个非零元素表示这类词中每个词的重要性(或者说相关性),数值越大越 相关。最后一个矩阵U中的每一列表示同一主题一类文章,其中每个元素表示这类文章中每篇文章的相关性。中间的矩阵则表示类词和文章类之间的相关性。因此, 我们只要对关联矩阵A进行一次奇异值分解, 我们就可以同时完成了近义词分类和文章的分类。(同时得到每类文章和每类词的相关性) 这是一个矩阵,这里的一行表示一个词在哪些title中出现了, 一列表示一个title中哪些词。 例: SVD的结果 左奇异向量表示词的一些特性,右奇异向量表示文档的一些特性,中间的奇异值矩阵表示左奇异向量的一行与右奇异向量的一列的重要程度,数字越大越重要 将左奇异向量和右奇异向量都取后2维(之前是3维的矩阵),投影到一个平面上,可以得到 图上,每一个红色的点,都表示一个词,每一个蓝色的点,都表示一篇文档,这样我们可以对这些词和文档进行聚类,比如说stock 和 market可以放在一类,因为他们老是出现在一起,real和estate可以放在一类,dads,guide这种词就看起来有点孤立了,我们就不对他们进行合并了。按这样聚类出现的效果,可以提取文档集合中的近义词,这样当用户检索文档的时候,是用语义级别(近义词集合)去检索了,而不是之前的词的级别。 P143: 10 1 ;

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档