- 14
- 0
- 约1.04万字
- 约 20页
- 2018-08-31 发布于福建
- 举报
基于随机森林和欠采样集成垃圾网页检测
基于随机森林和欠采样集成垃圾网页检测
摘要:为解决垃圾网页检测过程中的不平衡分类和“维数灾难”问题,提出一种基于随机森林(RF)和欠采样集成的二元分类器算法。首先使用欠采样技术将训练样本集大类抽样成多个与小类样本数相近的样本集,再将其分别与小类样本集合并构成多个平衡的子训练样本集;然后基于各个子训练样本集训练出多个随机森林分类器;最后用多个随机森林分类器对测试样本集进行分类,采用投票法确定测试样本的最终所属类别。在WEBSPAM UK2006数据集上的实验表明,该集成分类器算法应用于垃圾网页检测比随机森林算法及其Bagging和Adaboost集成分类器算法效果更好,准确率、F1测度、AUC等指标提高11%。与其他最优的垃圾网页检测结果相比,该集成分类器算法在F1测度上提高1%,在AUC上达到最优结果。
为解决垃圾网页检测过程中的不平衡分类和“维数灾难”问题,提出一种基于随机森林(RF)和欠采样集成的二元分类器算法。首先使用欠采样技术将训练样本集大类抽样成多个子样本集,再将其分别与小类样本集合并构成多个平衡的子训练样本集;然后基于各个子训练样本集训练出多个随机森林分类器;最后用多个随机森林分类器对测试样本集进行分类,采用投票法确定测试样本的最终所属类别。在WEBSPAM UK2006数据集上的实验表明,该集成分类器算法应用于垃圾网页检测比随机森林算法及其Bagging
您可能关注的文档
- 基于钻进过程油井安全综合评估.doc
- 基于铁离子检验教学问题探讨.doc
- 基于钻石理论转型期宁波会展业发展模式探析.doc
- 基于铁谱分析技术综合传动装置磨合时间探讨.doc
- 基于铁谱分析技术纳米Cu添加剂减磨机理研究.doc
- 基于铁路企业市场化进程中健全全面预算管理绩效考核机制研究.doc
- 基于铁路客运岗位工作流程铁路客运英语课程教学体系探究.doc
- 基于铁路工务管理信息系统铁路工务维修与管理现状分析.doc
- 基于铁路工程信息化管理探索.doc
- 基于铁路工程总承包合同管理分析.doc
- 河北省市场监督管理系统行政裁量权基准- 行政强制.pdf
- TJSP-再生原料生产的二乙二醇丁醚乙酸酯.pdf
- 外卖送餐食品安全管理规范编制说明.pdf
- DB44T2828-2026 城镇燃气安全检查与评估标准.pdf
- 河北省市场监督管理系统行政裁量权基准- 质量发展与安全监督管理.pdf
- TZJGFTR002-2021 再生退锡液产品标准.pdf
- TCGFA-绿色食品 鄂西湘西宽皮柑橘生产操作规程编制说明.pdf
- DB11T1031-2025 低层蒸压加气混凝土承重建筑技术规程.pdf
- TCASME-绿色建造工程施工现场环境管理规程编制说明.pdf
- TCASME-建筑工程管理 建筑机械安全使用技术规范编制说明.pdf
最近下载
- 《热工基础与应用(第3版)》傅秦生(电子课件)试题3.docx VIP
- 管道及设备防腐油漆施工工艺与质量标准.docx VIP
- 中国近现代史纲要.pdf VIP
- 植物组织培养 (第四版)课件全套 陈世昌 项目1--9 植物组织培养及其原理---植物组织培养与植物育种.pptx
- BOM管理流程标准操作手册.docx VIP
- 综采液压支架立柱及千斤顶维修质量标准.doc VIP
- 《热工基础与应用(第3版)》傅秦生(电子课件)试题2答案.docx VIP
- T∕TAF 211-2024 移动互联网应用程序共享个人信息展示规范.docx VIP
- 2026年中式面点师职业技能鉴定题库(附答案与解释).docx VIP
- 儿童适应行为量表及计分方式.pdf
原创力文档

文档评论(0)