- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于欠采样支持向量机不平衡的网页分类系统.pdf
计 算 机 系 统 应 用 http://www.C—s—a.org.cn 2017年 第 26卷 第 4期
基于欠采样支持向量机不平衡的网页分类系统①
李村合,唐 磊
(中国石油大学 计算机与通信工程学院,青岛 266580)
摘 要:在这个信息爆炸的时代,如何处理这些海量的数据如何有效的分类 已经引起 了人们的高度重视,尤其是
在互联无技术迅速发展的阶段,网页分类这领域己成为热点.与传统的分类方法相比,支持向量机具有高维、小
样本、适应性强的特点,能够非常有效率的解决网页分类问题,但是不平衡数据的分类这一方面,存在着分类不
精确 的问题.所以本文提出了新的解决不平衡数据样本策略,便是将欠采样策略与传统的支持向量机结合起来,
在减少多数类样本集中噪声数据的基础上增加少数类的样本集数量,从而使得不平衡样本集趋向于平衡,最后
结合 SMO(SenquentialMinimalOptimization)算法改进分类器 提高了分类的准确性.
关键词:支持向量机;SMO算法;训练集缩减算法;网页分类;多类分类
Realization ofW eb PageClassificationn System Based onUnder-SamplingSupportVector
M achine
LICun-He,TANGLei
(CollegeofComputerandCommunicationEngineering,ChinaUniversityofPetroleum,Qingdao266580,China)
Abstract:Inthiseraofinformationexplosion,how tohandlethesevastamountsofdataandhow toclassifythedata
effectivelyhasattractedmuchattention,especiallyinthestageofrapiddevelopmentofInternettechnologyfree,the
fieldofwebclassificationhasbecomeahotspot.Comparedwithhtetraditionalclassificationmethods,supportvector
machinehashtecharactersofhigh—dimensional,smallsamplesize,strongadaptability,andcanbeveryeffectivetosolve
hteproblem ofwebpageclassification.Butinthefield ofclassificationofimbalanced data,thereisaproblem of
inaccurateclassification.Therefore,thispaperproposesanew strategytosolvetheimbalancedatasamples,thatis,
combininghteunder—samplingstrategywiht thetraditionalsupportvectormachinestoincreasehtenumberofsamples
seIinhteminorityclassandtoreducehteconcenrtatednoisedatainthemajorityclass,SOthatimbalancedsampleset
tendstobebalanced.FinallySMO algorithm isusedtoimprovehteaccuracyofclassification.
Key words:support vectormachine;SMO algorithm;reduction in thertaining set;classification ofweb page;
multi—classC1assjfication
l 引言 结构风险最小化原则为基础的学习机器L2J,在分类领
随着互联网的发展,网络的信息量爆炸式的增长, 域具有非常广泛的应用,在平衡问题的表现上效果非
人们从互联网中获取有用的信息越来越困难,也给互 常好,可以克服局部最小值问题,但是在支持向量机
联网的企业带来的挑战,由此,网页分类技术如雨后 在处
您可能关注的文档
- 基于开源硬件和物联网云平台的远程控制应用.pdf
- 基于形态学与支持向量机的虹膜坑洞纹理检测.pdf
- 基于形态小波和支持向量机的高压断路器状态监测和故障诊断.pdf
- 基于微信公众号的大学教学辅助平台建设.pdf
- 基于微信公众平台的医生远程培训系统研究.pdf
- 基于微信公众平台的教学辅助系统开发及应用——以中学VEX机器人教育为例.pdf
- 基于微信公众平台的美术辅助课程系统设计.pdf
- 基于微信公众平台辅助教学的高职护理礼仪课程改革实践.pdf
- 基于微信公众移动平台的考核改革实践研究——以基础会计课程考核改革为例.pdf
- 基于微信平台的园林植物课程辅助性学习方法的探讨.pdf
- 2025年无人机低空医疗物资投放社会效益报告.docx
- 2025年再生塑料行业包装回收利用产业链重构研究.docx
- 《AI眼镜周边产品市场机遇:2025年终端销售与需求增长洞察》.docx
- 2025年坚果加工行业深加工技术突破与市场拓展策略报告.docx
- 2025年通信芯片行业技术竞争与未来趋势报告.docx
- 《2025年生鲜电商配送冷链事故分析与预防措施》.docx
- 《商业航天融资新趋势2025民营卫星企业资本涌入估值分析市场动态》.docx
- 2025年能源绿色健康行业创新技术与市场应用报告.docx
- 2025年无人机低空医疗救援通信方案分析报告.docx
- 2025年烹饪机器人行业市场集中度分析报告.docx
原创力文档


文档评论(0)