- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文文本分类反馈学习探讨
摘要
摘要
随着Intemet信息的日益膨胀,网络上的信息资源正在以指数级的速度增长,
人们必须面对如何在广博的信息中发现和挖掘自己所需信息资源的问题。这就要
求我们探索计算机自动文本分类的有效方法,使得分类的效率和准确率得到提高。
然而由于训练语料数量有限而难以覆盖该类别所有的内容和随着时间的推移该类
别又增加了许多新特征而使原有分类器过时,此时仍利用原有分类器来对当前待
分类文本进行分类,可能会造成分类错误和分类遗漏等问题。反馈学习是针对信
息变化动态调整完善分类模型行之有效的方法。因此,根据用户反馈对分类模型
进行动态完善成为当前亟待解决的问题。
本文在文本分类现状进行广泛研究地基础上,对文本分类的关键技术进行了
归纳性总结,其中包括文本分词、文本表示、特征选取、特征权重计算、分类算
法(特别是支持向量机分类器和K最邻近分类器)和分类性能评估。基于不同规
模的文本集,比较性分析了信息增益、互信息、期望交叉熵、x2.统计量和文本证
据权五种特征选取方法对分类性能的影响;实验分析了文本特征选取算法对分类
性能的影响、支持向量机分类器中核函数选择对分类性能的影响、特征向量维数
对文本分类性能的影响和K最邻近分类器中K值的大小对分类性能的影响等。
在对中文文本分类深入研究的基础上,又将相关反馈引入中文文本分类并详
细分析了文本分类反馈学习的基本思想,对反馈学习的分类流程和反馈学习算法
进行了深入探讨,构建了基于反馈学习的中文文本分类模型,阐述了中文文本分
类反馈学习系统的结构框架和功能模块。最后,通过对训练集和非训练集分别进
行的实验研究表明:反馈学习对分类性能的提高有明显的作用和用于学习的训练
样本的质量对分类性能影响的重要性和用户参与反馈分类所带来的不确定性。
“训练一分类一反馈”的中文文本分类反馈学习模式,是在传统“训练一分
类”模式基础上增加反馈而形成的,那么该分类模式对训练不充分或由于更新较
快而无法训练充分的分类模型具有完善作用,分类器也逐渐从训练不充分阶段趋
于训练充分阶段,分类性能也将逐渐趋于稳定。因此,对中文文本分类反馈学习
的研究具有较强理论意义和实践意义。
关键词:支持向量机K最邻近文本分类反馈学习
ABSTRACT
ABSTRACT
Withthe ofInternet information
increasingexpansion information,Network
resourcesis atarateof mustfacethe how
to
growing exponential,Peoplequestion
and informationneedresourcesatabroad of
discovery information.
mining they range
The effectivetextclassificationmethodsare order
computer
automatically explored,in
to the
classificationand becausealimitednumberof
improve efficiencyaccuracy.But
text doesnotcoverallthe oftextand谢ththe of
training
gtoups
文档评论(0)