概率主题模型在文本分类中应用研究.pdfVIP

概率主题模型在文本分类中应用研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘要 摘 要 数据偏斜和噪声数据是文本自动分类应用中经常遇到的问题。在数据偏斜的 情况下,样本无法准确反映整个空间的数据分布,分类器容易受到大类的影响而忽 略小类。大多数分类算法都是面向均匀分布数据提出的,对于数据偏斜的情况, 仅利用传统的分类方法并不能取得理想的效果。另一方面,分类器的质量很大程 度上取决于训练文本集的质量。一般说来,训练文本集类别越准确、内容越全面, 得到的分类器质量就越高。但是在实际应用中,这种全面准确的训练文本集是很 难得到的,尤其是在数据规模很大的情况下,更是如此。在真实的文本分类应用 中,训练数据一般都不可避免的含有噪声,这些噪声样本将对最终的分类结果产 Dirichlet 生重要影响。我们结合LDA(LatemAllocation)概率主题模型,针对上 述两种情况,提出了基于概率主题模型的数据偏斜分类方法和噪声处理方法。利 用LDA概率主题模型潜在的全局语义信息,人工生成新的训练文本,能够取得 比传统方法更好的效果。 本文的主要工作和特色如下: 首先,提出了~种基于LDA概率主题模型的文本生成方法。首先采用Gibbs 抽样算法从训练文本集中抽取LDA模型,然后利用LDA模型的生成过程思想构 造属于训练文本集的新文本。实验表明,生成的新文本与原来的训练文本集有较 高的相似性,同时也不存在过度拟合现象。 其次,针对文本分类中的数据偏斜现象,结合LDA概率主题模型,提出了 一种新的数据偏斜文本分类方法。该方法不但解决了传统过采样方法不可避免的 过度拟合问题,还在一定程度上扩大了稀有类别在文本空间上的范围。在多个数 据集上面的实验结果表明,该方法比其他数据偏斜处理方法更适用于文本分类问 题。 最后,提出了一种利用LDA概率主题模型处理噪声的文本分类方法。根据 类别熵对噪声样本进行过滤,然后利用主题模型的生成过程进行数据平滑,进一 步减弱噪声样本的影响,同时保持了训练集的原有规模。在真实数据上的实验表 明,该方法对噪声样本的分布具有较好的鲁棒性,在噪声比例较大的情况下仍然 能够提供较好的分类结果。 通过详细的理论分析和实验验证表明,概率主题模型的引入能够很好的提取 并利用文档集合中包含的语义信息,使得文本分类方法在复杂应用中获得更好的 效果。 关键词:文本分类,概率主题模型,数据偏斜,类别不平衡,噪声,类别熵 Abstract ABSTRACT Dataskewandnoise are encounteredintextclassification samplesfrequently skewed cannot reflecttherealdata data,the correctly applications.In samples the distributionandtheclassifier therareclassoverwhelmed mayignore by large are forbalanced class classificationmethods samples.Most designed data,SOthey skeweddata.Ontheother cannotachieve for hand,the perfectperformance ofclassifi

文档评论(0)

明若晓溪 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档