概率主题模型在文本分类中的应用探究.pdf

下载文档 降价啦

16
0
约9.05万字
约 66页
2015-10-15 发布于安徽
举报
保障服务

概率主题模型在文本分类中的应用探究.pdf

摘要摘要数据偏斜和噪声数据是文本自动分类应用中经常遇到的问题。在数据偏斜的情况下，样本无法准确反映整个空间的数据分布，分类器容易受到大类的影响而忽略小类。大多数分类算法都是面向均匀分布数据提出的，对于数据偏斜的情况，仅利用传统的分类方法并不能取得理想的效果。另一方面，分类器的质量很大程度上取决于训练文本集的质量。一般说来，训练文本集类别越准确、内容越全面，得到的分类器质量就越高。但是在实际应用中，这种全面准确的训练文本集是很难得到的，尤其是在数据规模很大的情况下，更是如此。在真实的文本分类应用中，训练数据一般都不可避免的含有噪声，这些噪声样本将对最终的分类结果产 Dirichlet 生重要影响。我们结合LDA(LatemAllocation)概率主题模型，针对上述两种情况，提出了基于概率主题模型的数据偏斜分类方法和噪声处理方法。利用LDA概率主题模型潜在的全局语义信息，人工生成新的训练文本，能够取得比传统方法更好的效果。本文的主要工作和特色如下：首先，提出了～种基于LDA概率主题模型的文本生成方法。首先采用Gibbs

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

概率主题模型在文本分类中的应用探究.pdf

概率主题模型在文本分类中的应用探究.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档