基于随机森林和欠采样集成垃圾网页检测.docVIP

  • 14
  • 0
  • 约1.04万字
  • 约 20页
  • 2018-08-31 发布于福建
  • 举报

基于随机森林和欠采样集成垃圾网页检测.doc

基于随机森林和欠采样集成垃圾网页检测

基于随机森林和欠采样集成垃圾网页检测   摘要:为解决垃圾网页检测过程中的不平衡分类和“维数灾难”问题,提出一种基于随机森林(RF)和欠采样集成的二元分类器算法。首先使用欠采样技术将训练样本集大类抽样成多个与小类样本数相近的样本集,再将其分别与小类样本集合并构成多个平衡的子训练样本集;然后基于各个子训练样本集训练出多个随机森林分类器;最后用多个随机森林分类器对测试样本集进行分类,采用投票法确定测试样本的最终所属类别。在WEBSPAM UK2006数据集上的实验表明,该集成分类器算法应用于垃圾网页检测比随机森林算法及其Bagging和Adaboost集成分类器算法效果更好,准确率、F1测度、AUC等指标提高11%。与其他最优的垃圾网页检测结果相比,该集成分类器算法在F1测度上提高1%,在AUC上达到最优结果。   为解决垃圾网页检测过程中的不平衡分类和“维数灾难”问题,提出一种基于随机森林(RF)和欠采样集成的二元分类器算法。首先使用欠采样技术将训练样本集大类抽样成多个子样本集,再将其分别与小类样本集合并构成多个平衡的子训练样本集;然后基于各个子训练样本集训练出多个随机森林分类器;最后用多个随机森林分类器对测试样本集进行分类,采用投票法确定测试样本的最终所属类别。在WEBSPAM UK2006数据集上的实验表明,该集成分类器算法应用于垃圾网页检测比随机森林算法及其Bagging

文档评论(0)

1亿VIP精品文档

相关文档