- 3
- 0
- 约7.24万字
- 约 60页
- 2015-11-01 发布于安徽
- 举报
硕.}:论文 面向领域文奉的潜稿:语义分析研究
摘 要
传统基于词语独立性假设、原始高维词语特征表示和字面匹配方法的文本信息处
理往往忽略了文本信息中所隐藏的语义结构,无法形成对文档、作者、研究结构等处
理单元的正确语义表示,影响了检索、聚类、分类、相似度计算、关联挖掘等深层文
本信息处理的效率、准确率和召回率。因此,探索一种有效的语义分析和表示技术,
对于文本信息处理和挖掘有着重要的意义。
针对传统文本信息处理存在的问题,本文引入了潜在语义分析(LSA)模型,试
维方法达到信息过滤和去除噪声的目的,实现原始“词语一文档矩阵的分解,获得
原始矩阵的降维近似逼近阵,从而将文档和词语的高维表示投影到低维的潜在语义空
间中,缩小问题的规模,得到不再稀疏的词汇和文档的低维表示,进而揭示出词汇(文
档)之间的语义联系。
在对文本信息处理和潜在语义分析的国内外研究与应用的现状和问题的总结基
础上,本文阐述了潜在语义分析(LSA)模型的基本思想和原理,重点研究了基于
SVD、SDD等的潜在语义分析实现方法、各种方法的数学原理以及实现过程,同时将
这些方法与PCA等传统语义成分提取方法进行比较,对这些方法应用于文本信息处理
的科学性进行了理论解释,弥补了相关方法研究在理论解释方面的不足。论文重点实
现了基于SDD的潜在语义分析处理。这是一种在理论解释、效率和精度等方面均较优
异的方法,国内相关研究则较少,本文在此方法上的理论、实现和实验研究是一种有
意义的尝试。
然后,论文探索了基于潜在语义空间的领域文本信息处理的典型应用问题的方法
与机理,通过对比试验、选择合适的评价模型研究了潜在语义分析处理在文本聚类中
的应用相对于传统的文本聚类在效率、准确率、召回率等方面产生的本质差别。在实
验研究的基础上,论文得出了一些有意义的结论,这些结论对于相关研究在方法选择、
语义维度设定等方面有着一定的参考意义。
关键词:文本信息处理 潜在语义分析奇异值分解半离散矩阵分解文本聚类
abstract 硕士论文
Abstract
Traditionaltextinformation basedon feature
processing originalhigh-dimensional
andliteralwordsmatchoftenoverlooksthe
representation,termsindependenceassumption
hiddensemanticstructure itcan’tformcorrect
oftextinformation.So semantic
processing
unitsof andthe institutionthataffectstextinformation
documents,authorsstudy
and textinformation
processingefficiency,accuracyrecall.Deep—seated processing
includes
text measuresand
retrieval,Text classification,text
clustering,text similarity
correlation aneffectives
您可能关注的文档
最近下载
- 税务师-税法一-突击强化题-第4章城市维护建设税、教育费附加及地方教育附加.docx VIP
- 航空发动机维修(MRO)市场现状调研报告_2025年12月.docx VIP
- 粉笔-市场前景及投资研究报告-线上公考,OMO多元化发展路径.pdf
- Invitrogen Qubit荧光计Qubit 4和Qubit Flex说明书.pdf
- 油水分离器采购及安装合同模板.docx VIP
- 2025-2030年中国城轨建设行业深度发展研究及“十五五”发展规划与趋势预测研究报告.docx
- 云米Link说明书用户手册.pdf
- 银河麒麟服务器虚拟化系统V10 彩页.pdf VIP
- 好的教育读书分享 课件(共18张PPT).pptx VIP
- 申论真题及答案重庆2025.doc VIP
原创力文档

文档评论(0)