基于lda与svm的文本分类研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
密 级: 学校代码:10075 分类号: 学 号 工学硕士学位论文 学位申请人: 谢 静 指 导 教 师 : 李昆仑 教授 学 位 类 别 : 工学硕士 学 科 专 业 : 通信与信息系统 授 予 单 位 : 河北大学 答 辩 日 期 : 二〇一二年六月 Classified Index: CODE: 10075 U.D.C: NO: A Dissertation for the Degree of M. Engineering Research on Text Categorization based on LDA and SVM Candidate: Xie Jing Supervisor: Prof. Li Kunlun Academic Degree Applied for: Master of Engineering Specialty: Comm. Info. System University: Hebei University Date of Oral Examination: June, 2012 摘 要 摘 要 文本自动分类是信息检索与数据挖掘领域的研究热点,近年来得到了广泛的关注和 快速的发展,它是机器学习和自然语言处理的关键技术之一。近几年,人们开始将机器 学习的方法应用到文本自动分类领域,它在分类效果和灵活性上都比传统的文本分类模 式有所发展,成为相关领域研究和应用的范例。 特征选择和分类算法是文本分类中两项关键的技术。在文本分类中,特征空间维数 过高引起“维数灾难”,传统特征选择方法在处理文本数据时,特征降维效果不佳,且 易忽视词间语义关系,直接影响分类性能。实际文本数据具有类别和样本数目多、噪音 多、各类别样本数目不均衡等特点,传统分类算法在分类精度和速度上不能兼顾。 本文对文本分类及其相关技术进行研究,从降低文本数据的维数,提高分类性能出 发,提出了相应的解决或改进的方法。本文的研究工作主要包括以下几个方面: (1)在文本预处理阶段加入词频和文档频度过滤,在经典的LDA 特征选择算法基 础上融入类别信息,发掘不同类别文档内部潜在主题的差异性,采取双重特征选择方法 以期选择对分类最有意义的特征词。 (2 )针对大规模文本数据的特点,在各类别训练数据集上分别用LDA 模型进行主 题建模,利用 Gibbs 抽样参数推理,间接计算模型参数,把每个文本表示为固定隐含主 题集上的概率分布,从而获得文本集的隐含主题-文本矩阵,简化了文本数据,取得了 显著降维效果,缩短了分类算法的训练时间。 (3 )在上述工作的基础上应用 SVM 分类算法,将 LDA 良好的文本特征表示性能 和 SVM 强大的分类能力结合起来。在中英文语料库上实验表明,与其它特征选择方法 和分类算法结合相比,本文的方法特征降维效果明显,F 值、Macro-F 、Micro- F 和精

文档评论(0)

sunache + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档