- 1、本文档共68页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
概率主题模型在本分类中的应用研究
摘要
摘 要
数据偏斜和噪声数据是文本自动分类应用中经常遇到的问题。在数据偏斜的
情况下,样本无法准确反映整个空间的数据分布,分类器容易受到大类的影响而忽
略小类。大多数分类算法都是面向均匀分布数据提出的,对于数据偏斜的情况,
仅利用传统的分类方法并不能取得理想的效果。另一方面,分类器的质量很大程
度上取决于训练文本集的质量。一般说来,训练文本集类别越准确、内容越全面,
得到的分类器质量就越高。但是在实际应用中,这种全面准确的训练文本集是很
难得到的,尤其是在数据规模很大的情况下,更是如此。在真实的文本分类应用
中,训练数据一般都不可避免的含有噪声,这些噪声样本将对最终的分类结果产
Dirichlet
生重要影响。我们结合LDA(LatemAllocation)概率主题模型,针对上
述两种情况,提出了基于概率主题模型的数据偏斜分类方法和噪声处理方法。利
用LDA概率主题模型潜在的全局语义信息,人工生成新的训练文本,能够取得
比传统方法更好的效果。
本文的主要工作和特色如下:
首先,提出了~种基于LDA概率主题模型的文本生成方法。首先采用Gibbs
抽样算法从训练文本集中抽取LDA模型,然后利用LDA模型的生成过程思想构
造属于训练文本集的新文本。实验表明,生成的新文本与原来的训练文本集有较
高的相似性,同时也不存在过度拟合现象。
其次,针对文本分类中的数据偏斜现象,结合LDA概率主题模型,提出了
一种新的数据偏斜文本分类方法。该方法不但解决了传统过采样方法不可避免的
过度拟合问题,还在一定程度上扩大了稀有类别在文本空间上的范围。在多个数
据集上面的实验结果表明,该方法比其他数据偏斜处理方法更适用于文本分类问
题。
最后,提出了一种利用LDA概率主题模型处理噪声的文本分类方法。根据
类别熵对噪声样本进行过滤,然后利用主题模型的生成过程进行数据平滑,进一
步减弱噪声样本的影响,同时保持了训练集的原有规模。在真实数据上的实验表
明,该方法对噪声样本的分布具有较好的鲁棒性,在噪声比例较大的情况下仍然
能够提供较好的分类结果。
通过详细的理论分析和实验验证表明,概率主题模型的引入能够很好的提取
并利用文档集合中包含的语义信息,使得文本分类方法在复杂应用中获得更好的
效果。
关键词:文本分类,概率主题模型,数据偏斜,类别不平衡,噪声,类别熵
Abstract
ABSTRACT
Dataskewandnoise are encounteredintextclassification
samplesfrequently
skewed cannot reflecttherealdata
data,the correctly
applications.In samples
the
distributionandtheclassifier therareclassoverwhelmed
mayignore by large
are forbalanced
class classificationmethods
samples.Most designed data,SOthey
skeweddata.Ontheother
cannotachieve for hand,the
perfectpe
文档评论(0)