概率主题模型在本分类中的应用研究.pdf

下载文档 降价啦

8
0
约9.19万字
约 68页
2016-01-01 发布于四川
举报
版权申诉
保障服务

概率主题模型在本分类中的应用研究.pdf

1、本文档共68页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

概率主题模型在本分类中的应用研究

摘要摘要数据偏斜和噪声数据是文本自动分类应用中经常遇到的问题。在数据偏斜的情况下，样本无法准确反映整个空间的数据分布，分类器容易受到大类的影响而忽略小类。大多数分类算法都是面向均匀分布数据提出的，对于数据偏斜的情况，仅利用传统的分类方法并不能取得理想的效果。另一方面，分类器的质量很大程度上取决于训练文本集的质量。一般说来，训练文本集类别越准确、内容越全面，得到的分类器质量就越高。但是在实际应用中，这种全面准确的训练文本集是很难得到的，尤其是在数据规模很大的情况下，更是如此。在真实的文本分类应用中，训练数据一般都不可避免的含有噪声，这些噪声样本将对最终的分类结果产 Dirichlet 生重要影响。我们结合LDA(LatemAllocation)概率主题模型，针对上述两种情况，提出了基于概率主题模型的数据偏斜分类方法和噪声处理方法。利用LDA概率主题模型潜在的全局语义信息，人工生成新的训练文本，能够取得比传统方法更好的效果。本文的主要工作和特色如下：首先，提出了～种基于LDA概率主题模型的文本生成方法。首先采用Gibbs 抽样算法从训练文本集中抽取LDA模型，然后利用LDA模型的生成过程思想构造属于训练文本集的新文本。实验表明，生成的新文本与原来的训练文本集有较高的相似性，同时也不存在过度拟合现象。其次，针对文本分类中的数据偏斜现象，结合LDA概率主题模型，提出了一种新的数据偏斜文本分类方法。该方法不但解决了传统过采样方法不可避免的过度拟合问题，还在一定程度上扩大了稀有类别在文本空间上的范围。在多个数据集上面的实验结果表明，该方法比其他数据偏斜处理方法更适用于文本分类问题。最后，提出了一种利用LDA概率主题模型处理噪声的文本分类方法。根据类别熵对噪声样本进行过滤，然后利用主题模型的生成过程进行数据平滑，进一步减弱噪声样本的影响，同时保持了训练集的原有规模。在真实数据上的实验表明，该方法对噪声样本的分布具有较好的鲁棒性，在噪声比例较大的情况下仍然能够提供较好的分类结果。通过详细的理论分析和实验验证表明，概率主题模型的引入能够很好的提取并利用文档集合中包含的语义信息，使得文本分类方法在复杂应用中获得更好的效果。关键词：文本分类，概率主题模型，数据偏斜，类别不平衡，噪声，类别熵 Abstract ABSTRACT Dataskewandnoise are encounteredintextclassification samplesfrequently skewed cannot reflecttherealdata data，the correctly applications．In samples the distributionandtheclassifier therareclassoverwhelmed mayignore by large are forbalanced class classificationmethods samples．Most designed data，SOthey skeweddata．Ontheother cannotachieve for hand，the perfectpe