技术报告_SVD与LDA研讨.docVIP

下载本文档

2
0
约1.46万字
约 16页
2016-08-06 发布于湖北
举报
版权申诉

技术报告_SVD与LDA研讨.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

技术报告_SVD与LDA研讨

SVD与LDA 一、矩阵的奇异值分解(Singular Value Decomposition，SVD） 1. 矩阵的奇异值定义设C是M x N实矩阵，称n阶方阵CTC的非0特征值的算术平方根为矩阵C的奇异值。 2. 矩阵的奇异值分解定理 SVD（Single Value Decomposition），即奇异值分解，是潜在语义索引的理论基础。它是线性代数中有关矩阵分解的一个理论。设A是秩为r的m(n阶实矩阵，则存在m阶正交阵U和n阶正交阵V，使得（）U、S和V分别为m(m、m(n和n(n维的矩阵。矩阵U的各列为AAT的特征向量，矩阵V的各列为ATA的特征向量。且矩阵AAT和矩阵ATA的特征值均为(1,… ,(r（(i0，i=1,2,…,r），设，则。即矩阵S为对角阵，S中的对角元素称为奇异值。图1给出了一个奇异值分解的示例。图1 SVD分解图示 Fig. 1 An example of SVD SVD分解能被用来计算最优的low-rank approximation，即SVD分解能得到原矩阵的最优低阶近似。这转化为一个近似问题，即：找到秩为k的矩阵Ak，使得（）称为Frobenius error，Ak和X均为m(n的矩阵。kr。在SVD中，解决办法是采用Truncated SVD。即将SVD分解中的对角矩阵中的后面r-k个对角元素置为0，只保留前k个对角元素。因为对角元素是按照从大到小降序排列的，这样一来，就能保持在降维的情况下，还能保证最小错误率（minimum Frobenius error）。 Truncated SVD的公式是：（）Ak也可以表示成：（） Fig. 2 An example of Truncated SVD 3. 低阶近似 LSA潜在语义分析中，低阶近似是为了使用低维的矩阵来表示一个高维的矩阵，并使两者之差尽可能的小。给定一个M x N矩阵C(其秩为r)和正整数k，我们希望找到一个M x N矩阵Ck，其秩不大于K。设X为C与Ck之间的差，X=C – Ck，X的F-范数为（5）当k远小于r时，称Ck为C的低阶近似，其中X也就是两矩阵之差的F范数要尽可能的小 SVD可以被用与求低阶近似问题，步骤如下： (1)给定一个矩阵C，对其奇异值分解：（6） (2)构造，它是将的第k+1行至M行设为零，也就是把的最小的r-k个(the r-k smallest)奇异值设为零。 (3)计算Ck：（7）对文本分类，SVD中的矩阵A即是词项-文本矩阵（term-document vector matrix），矩阵U即是词项-概念矩阵（term-concept vector matrix），V即是概念-文档矩阵（concept-document vector matrix），矩阵S是奇异值矩阵，它是对角阵。由于在文本中，词项-文本矩阵的维数（m，n）经常是几万维，矩阵的秩也是上千维。因此，采用Truncated SVD的方式进行降维处理，在文本分类领域就显得尤为重要。实际中，通过利用Truncated SVD进行low-rank approximations，矩阵的秩可以降到100-300维，同时，能保证分类的效果不出现明显的下降。潜在语义空间与原来的空间（VSM）相比，空间维数要小的多。因此，LSI其实是一种降维方法。通过采用Truncated SVD，能使得特征空间的维度进一步的下降。但同时，LSI的特点是它获取的新的维度在直观上无法给出解释，这一点不同于特征选择的降维方法。 4. 潜在语义索引示例为了更好的理解潜在语义索引方法在文本分类领域的应用。下面举一个简单的例子。图3是一个词项-文本矩阵A。每一行表示一个词项特征，每一列表示一篇文档。行列元素的值表示该词项是否在对应的文档中出现，如果出现，元素值为1，否则，元素值为0。图3 词项-文档矩阵示例 Fig. 3 An term-document vector matrix 对该矩阵进行SVD分解，得到如下三个矩阵，即词项矩阵U、文本矩阵VT和奇异值矩阵S。图4，图