- 1
- 0
- 约3.35万字
- 约 51页
- 2019-05-19 发布于上海
- 举报
摘
摘 要
失衡样本,即不平衡的数据集,是指在一个数据集中不同类样木的数量相差 悬殊。研究表明不平衡数据集严重影响了很多传统机器学习算法的分类性能,特 别是少数类的分类性能可能很差。同时,不平衡数据集还导致训练分类器的速度 过慢。然而在现实世界中,许多数据集都是不平衡的,甚至不平衡的程度很严重:
有些数据集中只有3‰5%的少数类样本,例如多媒体语义分类,信息检索,医
疗检测等。此外,人们通常更关心数据集中的少数类样本,例如信息检索中与关 键字相关的文档总是占很少数,所以人们更希望少数类有很好的分类性能。由于 传统的机器学习分类算法不能满足在现实中的分类应用性能良好,因此失衡样本 问题迫切需要得到解决。
为了解决失衡样本所带来的以上问题, 本文首先提出了过滤数据集中的样 本以平衡数据集的思想。这个思想希望通过过滤失衡样本中的对分类没有帮助的 多数类样木,从而拉小两类样本数量的差异,使数据集平衡并提高机器学习算法 的效果。
为了实现这个思想,本文又提出了一个新颖的过滤规则提取算法。该算法自 动从失衡的训练集中提取规则,这些规则能有效的去除样本空间中远离分类边界 的没有用的多数类,尽量保留少数类,最后使得数据集平衡。
在实验中,首先提取过滤规则,之后使用提取的规则过滤失衡数据集,最后 用SVM对过滤后的训练集训练分类器。此外,木文还将该思想和算法应用于自 动提取新闻图片中。从实验结果可
您可能关注的文档
- 六朝自然环境审美思想分析-文艺学专业论文.docx
- 论权力话语理论对《骆驼祥子》两个英译本的阐释-外国语言学及应用语言学专业论文.docx
- 硫化矿发电浸出过程工艺及其基础理论研究-冶金物理化学专业论文.docx
- 临沂市区域路网规划-建筑与土木工程专业论文.docx
- 论青花瓷纹样艺术在二维动画领域中的应用与探索-美术学专业论文.docx
- 沥青混合料粘弹性疲劳损伤模型研究-道路与铁道工程专业论文.docx
- 商业银行非利息收入结构与银行绩效的关系研究-西方经济学专业论文.docx
- 利率规则在我国的实证分析-金融学专业论文.docx
- 论网络传播对中国国家软实力的冲击与治理对策-行政管理专业论文.docx
- 山女鳟源致病性水霉菌的分离鉴定及其特性研究-畜牧学;动物遗传育种与繁殖专业论文.docx
- 矿物添加剂对垃圾焚烧飞灰熔融过程中重金属特性的影响-热能工程专业论文.docx
- 论我国房地产开发企业核心竞争力-建筑与土木工程专业论文.docx
- 磷对滆湖草、藻型稳态转换的影响研究-环境工程专业论文.docx
- 商业银行客户关系管理(CRM)的应用及其优化研究-金融学专业论文.docx
- 离子对HPLC检测细胞内核苷酸库方法的建立及应用齐墩果酸衍生物3-7-1的抗肿瘤作用及其作用机制分析-药理学专业论文.docx
- 离子对HPLC检测细胞内核苷酸库方法的建立及应用齐墩果酸衍生物3-7-1的抗肿瘤作用及其作用机制研究-药理学专业论文.docx
- 六苯胺基环三磷腈的合成及其对环氧树脂的阻燃作用研究-化学工程专业论文.docx
- 论和谐家庭建设中的思想道德教育-法学·马克思主义理论与思想政治教育专业论文.docx
- 磷酸化介导的UGT1A3代谢活性差异的初步研究-药物分析学专业论文.docx
- 流域环境价值评估的方法与应用研究-环境科学专业论文.docx
最近下载
- 登高车操作安全技术交底模板.docx VIP
- 13683《管理学原理(中级)》精讲课件第10章.pptx VIP
- 内蒙古自治区包头市2024-2025学年八年级下学期7月期末考试语文试卷.docx VIP
- 陕西西安西北工业大学附属中学2025-2026学年上学期九年级中考一模物理试卷(无答案).pdf VIP
- 2025年第三届农作物植保员技能大赛理论考试试题库(+答案解析).docx VIP
- 济轨发【2018】35号-工程档案管理办法 附录M-济南轨道交通建设工程用表.pdf VIP
- 内蒙古自治区包头市2024-2025学年七年级下学期7月期末考试数学试卷(含详解).pdf VIP
- 2024年黑龙江省绥化市中考物理试卷+答案解析.pdf VIP
- “一带一路”背景下国际学生中国国情教育策略和路径选择 【课题申报书】.docx VIP
- 13683《管理学原理(中级)》精讲课件第8章.pptx VIP
原创力文档

文档评论(0)