面向领域文本的潜在语义分析的研究.pdfVIP

下载本文档

3
0
约7.24万字
约 60页
2015-11-01 发布于安徽
举报

面向领域文本的潜在语义分析的研究.pdf

硕．}：论文面向领域文奉的潜稿：语义分析研究摘要传统基于词语独立性假设、原始高维词语特征表示和字面匹配方法的文本信息处理往往忽略了文本信息中所隐藏的语义结构，无法形成对文档、作者、研究结构等处理单元的正确语义表示，影响了检索、聚类、分类、相似度计算、关联挖掘等深层文本信息处理的效率、准确率和召回率。因此，探索一种有效的语义分析和表示技术，对于文本信息处理和挖掘有着重要的意义。针对传统文本信息处理存在的问题，本文引入了潜在语义分析(LSA)模型，试维方法达到信息过滤和去除噪声的目的，实现原始“词语一文档矩阵的分解，获得原始矩阵的降维近似逼近阵，从而将文档和词语的高维表示投影到低维的潜在语义空间中，缩小问题的规模，得到不再稀疏的词汇和文档的低维表示，进而揭示出词汇(文档)之间的语义联系。在对文本信息处理和潜在语义分析的国内外研究与应用的现状和问题的总结基础上，本文阐述了潜在语义分析(LSA)模型的基本思想和原理，重点研究了基于 SVD、SDD等的潜在语义分析实现方法、各种方法的数学原理以及实现过程，同时将这些方法与PCA等传统语义成分提取方法进行比较，对这些方法应用于文本信息处理的科学性进行了理论解释，弥补了相关方法研究在理论解释方面的不足。论文重点实现了基于SDD的潜在语义分析处理。这是一种在理论解释、效率和精度等方面均较优异的方法，国内相关研究则较少，本文在此方法上的理论、实现和实验研究是一种有意义的尝试。然后，论文探索了基于潜在语义空间的领域文本信息处理的典型应用问题的方法与机理，通过对比试验、选择合适的评价模型研究了潜在语义分析处理在文本聚类中的应用相对于传统的文本聚类在效率、准确率、召回率等方面产生的本质差别。在实验研究的基础上，论文得出了一些有意义的结论，这些结论对于相关研究在方法选择、语义维度设定等方面有着一定的参考意义。关键词：文本信息处理潜在语义分析奇异值分解半离散矩阵分解文本聚类 abstract 硕士论文 Abstract Traditionaltextinformation basedon feature processing originalhigh-dimensional andliteralwordsmatchoftenoverlooksthe representation，termsindependenceassumption hiddensemanticstructure itcan’tformcorrect oftextinformation．So semantic processing unitsof andthe institutionthataffectstextinformation documents，authorsstudy and textinformation processingefficiency,accuracyrecall．Deep—seated processing includes text measuresand retrieval，Text classification，text clustering，text similarity correlation aneffectives

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

面向领域文本的潜在语义分析的研究.pdfVIP