基于欠采样支持向量机不平衡的网页分类系统.pdf

基于欠采样支持向量机不平衡的网页分类系统.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于欠采样支持向量机不平衡的网页分类系统.pdf

计 算 机 系 统 应 用 http://www.C—s—a.org.cn 2017年 第 26卷 第 4期 基于欠采样支持向量机不平衡的网页分类系统① 李村合,唐 磊 (中国石油大学 计算机与通信工程学院,青岛 266580) 摘 要:在这个信息爆炸的时代,如何处理这些海量的数据如何有效的分类 已经引起 了人们的高度重视,尤其是 在互联无技术迅速发展的阶段,网页分类这领域己成为热点.与传统的分类方法相比,支持向量机具有高维、小 样本、适应性强的特点,能够非常有效率的解决网页分类问题,但是不平衡数据的分类这一方面,存在着分类不 精确 的问题.所以本文提出了新的解决不平衡数据样本策略,便是将欠采样策略与传统的支持向量机结合起来, 在减少多数类样本集中噪声数据的基础上增加少数类的样本集数量,从而使得不平衡样本集趋向于平衡,最后 结合 SMO(SenquentialMinimalOptimization)算法改进分类器 提高了分类的准确性. 关键词:支持向量机;SMO算法;训练集缩减算法;网页分类;多类分类 Realization ofW eb PageClassificationn System Based onUnder-SamplingSupportVector M achine LICun-He,TANGLei (CollegeofComputerandCommunicationEngineering,ChinaUniversityofPetroleum,Qingdao266580,China) Abstract:Inthiseraofinformationexplosion,how tohandlethesevastamountsofdataandhow toclassifythedata effectivelyhasattractedmuchattention,especiallyinthestageofrapiddevelopmentofInternettechnologyfree,the fieldofwebclassificationhasbecomeahotspot.Comparedwithhtetraditionalclassificationmethods,supportvector machinehashtecharactersofhigh—dimensional,smallsamplesize,strongadaptability,andcanbeveryeffectivetosolve hteproblem ofwebpageclassification.Butinthefield ofclassificationofimbalanced data,thereisaproblem of inaccurateclassification.Therefore,thispaperproposesanew strategytosolvetheimbalancedatasamples,thatis, combininghteunder—samplingstrategywiht thetraditionalsupportvectormachinestoincreasehtenumberofsamples seIinhteminorityclassandtoreducehteconcenrtatednoisedatainthemajorityclass,SOthatimbalancedsampleset tendstobebalanced.FinallySMO algorithm isusedtoimprovehteaccuracyofclassification. Key words:support vectormachine;SMO algorithm;reduction in thertaining set;classification ofweb page; multi—classC1assjfication l 引言 结构风险最小化原则为基础的学习机器L2J,在分类领 随着互联网的发展,网络的信息量爆炸式的增长, 域具有非常广泛的应用,在平衡问题的表现上效果非 人们从互联网中获取有用的信息越来越困难,也给互 常好,可以克服局部最小值问题,但是在支持向量机 联网的企业带来的挑战,由此,网页分类技术如雨后 在处

您可能关注的文档

文档评论(0)

170****0532 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8015033021000003

1亿VIP精品文档

相关文档