- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
技术报告_SVD与LDA
SVD与LDA
一、矩阵的奇异值分解(Singular Value Decomposition,SVD)
1. 矩阵的奇异值定义
设C是M x N实矩阵,称n阶方阵CTC的非0特征值的算术平方根为矩阵C的奇异值。
2. 矩阵的奇异值分解定理
SVD(Single Value Decomposition),即奇异值分解,是潜在语义索引的理论基础。它是线性代数中有关矩阵分解的一个理论。设A是秩为r的m′n阶实矩阵,则存在m阶正交阵U和n阶正交阵V,使得
(1)
其中,矩阵U、S和V分别为m′m、m′n和n′n维的矩阵。矩阵U的各列为AAT的特征向量,矩阵V的各列为ATA的特征向量。且矩阵AAT和矩阵ATA的特征值均为l1,… ,lr(li0,i=1,2,…,r),设 ,则。即矩阵S为对角阵,S中的对角元素称为奇异值。图1给出了一个奇异值分解的示例。
图1 SVD分解图示
Fig. 1 An example of SVD
SVD分解能被用来计算最优的low-rank approximation,即SVD分解能得到原矩阵的最优低阶近似。这转化为一个近似问题,即:找到秩为k的矩阵Ak,使得
(2)
其中,称为Frobenius error,Ak和X均为m′n的矩阵。kr。
在SVD中,解决办法是采用Truncated SVD。即将SVD分解中的对角矩阵中的后面r-k个对角元素置为0,只保留前k个对角元素。因为对角元素是按照从大到小降序排列的,这样一来,就能保持在降维的情况下,还能保证最小错误率(minimum Frobenius error)。
Truncated SVD的公式是:
(3)
矩阵Ak也可以表示成:
(4)
图2是Truncated SVD的一个示例。
图2 Truncated SVD分解图示
Fig. 2 An example of Truncated SVD
3. 低阶近似
LSA潜在语义分析中,低阶近似是为了使用低维的矩阵来表示一个高维的矩阵,并使两者之差尽可能的小。
给定一个M x N矩阵C(其秩为r)和正整数k,我们希望找到一个M x N矩阵Ck,其秩不大于K。设X为C与Ck之间的差,X=C – Ck,X的F-范数为
(5)
当k远小于r时,称Ck为C的低阶近似,其中X也就是两矩阵之差的F范数要尽可能的小
SVD可以被用与求低阶近似问题,步骤如下:
(1)给定一个矩阵C,对其奇异值分解:
(6)
(2)构造,它是将的第k+1行至M行设为零,也就是把的最小的r-k个(the r-k smallest)奇异值设为零。
(3)计算Ck:
(7)
对文本分类,SVD中的矩阵A即是词项-文本矩阵(term-document vector matrix),矩阵U即是词项-概念矩阵(term-concept vector matrix),V即是概念-文档矩阵(concept-document vector matrix),矩阵S是奇异值矩阵,它是对角阵。由于在文本中,词项-文本矩阵的维数(m,n)经常是几万维,矩阵的秩也是上千维。因此,采用Truncated SVD的方式进行降维处理,在文本分类领域就显得尤为重要。实际中,通过利用Truncated SVD进行low-rank approximations,矩阵的秩可以降到100-300维,同时,能保证分类的效果不出现明显的下降。
潜在语义空间与原来的空间(VSM)相比,空间维数要小的多。因此,LSI其实是一种降维方法。通过采用Truncated SVD,能使得特征空间的维度进一步的下降。但同时,LSI的特点是它获取的新的维度在直观上无法给出解释,这一点不同于特征选择的降维方法。
4. 潜在语义索引示例
为了更好的理解潜在语义索引方法在文本分类领域的应用。下面举一个简单的例子。
图3是一个词项-文本矩阵A。每一行表示一个词项特征,每一列表示一篇文档。行列元素的值表示该词项是否在对应的文档中出现,如果出现,元素值为1,否则,元素值为0。
图3 词项-文档矩阵示例
Fig. 3 An term-document vect
您可能关注的文档
最近下载
- 电力隧道电力隧道工程c标段施工方案.doc VIP
- 九年级物理第21章《信息的传递》全章课件.ppt VIP
- Unit 4 Fun with numbers(Get ready)外研版(三起)(2024)英语三年级上册.pptx VIP
- (妇产科)子宫内膜癌教学查房.pptx
- 供应商审核报告范文模板.docx VIP
- 机场行测考试题库.pdf VIP
- 2025年《网络设备配置与安全》课程标准.docx VIP
- 成都市盐道街中学高一入学语文分班考试真题含答案.docx VIP
- 成都市盐道街外国语2025高一入学英语分班考试真题含答案.docx VIP
- 成都市盐道街外国语2025高一入学数学分班考试真题含答案.docx VIP
文档评论(0)