基于lda与svm的文本分类研究.pdfVIP

下载本文档

14
0
约9.54万字
约 60页
2021-10-20 发布于辽宁
举报
版权申诉

基于lda与svm的文本分类研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

密级：学校代码：10075 分类号：学号工学硕士学位论文学位申请人：谢静指导教师：李昆仑教授学位类别：工学硕士学科专业：通信与信息系统授予单位：河北大学答辩日期：二〇一二年六月 Classified Index: CODE: 10075 U.D.C: NO: A Dissertation for the Degree of M. Engineering Research on Text Categorization based on LDA and SVM Candidate: Xie Jing Supervisor: Prof. Li Kunlun Academic Degree Applied for: Master of Engineering Specialty: Comm. Info. System University: Hebei University Date of Oral Examination: June, 2012 摘要摘要文本自动分类是信息检索与数据挖掘领域的研究热点，近年来得到了广泛的关注和快速的发展，它是机器学习和自然语言处理的关键技术之一。近几年，人们开始将机器学习的方法应用到文本自动分类领域，它在分类效果和灵活性上都比传统的文本分类模式有所发展，成为相关领域研究和应用的范例。特征选择和分类算法是文本分类中两项关键的技术。在文本分类中，特征空间维数过高引起“维数灾难”，传统特征选择方法在处理文本数据时，特征降维效果不佳，且易忽视词间语义关系，直接影响分类性能。实际文本数据具有类别和样本数目多、噪音多、各类别样本数目不均衡等特点，传统分类算法在分类精度和速度上不能兼顾。本文对文本分类及其相关技术进行研究，从降低文本数据的维数，提高分类性能出发，提出了相应的解决或改进的方法。本文的研究工作主要包括以下几个方面：（1）在文本预处理阶段加入词频和文档频度过滤，在经典的LDA 特征选择算法基础上融入类别信息，发掘不同类别文档内部潜在主题的差异性，采取双重特征选择方法以期选择对分类最有意义的特征词。（2 ）针对大规模文本数据的特点，在各类别训练数据集上分别用LDA 模型进行主题建模，利用 Gibbs 抽样参数推理，间接计算模型参数，把每个文本表示为固定隐含主题集上的概率分布，从而获得文本集的隐含主题-文本矩阵，简化了文本数据，取得了显著降维效果，缩短了分类算法的训练时间。（3 ）在上述工作的基础上应用 SVM 分类算法，将 LDA 良好的文本特征表示性能和 SVM 强大的分类能力结合起来。在中英文语料库上实验表明，与其它特征选择方法和分类算法结合相比，本文的方法特征降维效果明显，F 值、Macro-F 、Micro- F 和精