基于K-means的二阶段多类SVM分类器.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于K-means的二阶段多类SVM分类器

第 27卷 第 1期 广西师范大学学报:自然科学版 Vo1.27 No.1 2OO9年 3月 JournalofGuangxiNormalUniversity:NaturalScienceEdition M ar.2009 基于K—means的二阶段多类 SVM 分类器 魏伟华,吴京慧 (江西财经大学信息管理学院,江西 南昌330013) 摘 要:提出了基于K—means的二阶段多类 SVM 分类方法。该方法分为二个阶段:第一阶段采用K—means 聚类,通过抽样精度来提高聚类准确度 ;第二阶段采用LIBSVM进行分类。通过使用LIBSVM 提供的语料进 行实验,结果显示比直接使用LIBSVM进行分类准确度提高了9.35%。 关键词:分类;一平均算法 ;二阶段多类支持向量机分类;LIBSVM 中图分类号:TP301.6 文献标识码:A 文章编号 :1001—6600(2009)01—0109—04 随着信息时代的来临,文本分类作为信息获取和过滤的手段,越来越受到人们的重视。典型的自动文 本分类方法有决策树和规则学习算法、回归方法、KNN方法、朴素贝叶斯方法、神经网络、支持 向量机 等 ’。 在 自动分类技术快速发展的同时,聚类作为数据挖掘的一种重要手段,也得到了飞速发展。聚类是一 个无导的学习过程,指事先没有 “标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。常用的 方法有基于层次的方法、基于划分的方法 (包括概率聚类、K一中心点算法、K—means算法等)、基于密度的 算法、基于网格的方法等等[3]。 聚类可以看成是无 “标签”的分类过程,与分类有着密切关系。本文针对二者的关系,提出先聚类再分 类的二阶段分类方法 。 1 基于K—means的二阶段多类 SVM 分类方法 基于K—means的二阶段多类SVM 分类方法涉及到二个阶段:第一阶段先对文本进行聚类,本文采 用的方法是K—means聚类方法,聚类后对聚类结果进行样本抽样,由于是小样本近似服从t分布,只需对 抽样精度及最大允许绝对误差进行合理设置,就可保证较高聚类准确度;第二阶段对抽样结果不理想的类 采用SVM 进行分类 。 1.1 K—means聚类算法介绍 本文 中聚类所采用的方法是K—means方法 。作为聚类算法的一个经典算法,K—means算法的特点是 试图找出使平方误差值最小的k个划分。当结果簇是密集的,而簇与簇之间区分明显时,它的效果较好。该 算法复杂度为O(nkT),其中k为类别个数, 是迭代次数。因此其可扩展性较好,对大数据集处理有较高 的效率。算法常以局部最优结束 。 1.2 多类 SVM分类器介绍 分类所采用的方法是多类SVM 分类器。由于SVM 算法最初是为二值分类问题设计的,当处理多类 问题时,就需要构造合适的多类分类器。目前,构造SVM 多类分类器的方法主要有两类:一类是直接法, 直接在 目标函数上进行修改,将多个分类面的参数求解合并到一个最优化问题中,通过求解该最优化问题 “ 一 次性”实现多类分类。这种方法看似简单,但其计算复杂度 比较高,实现起来 比较困难 ,只适合用于小型 问题 中;另一类是间接法,主要是通过组合多个二分类器来实现多分类器的构造 ,常见的方法有 one— against—one和one—against—all两种L6]。LIBSVM 中的多类分类就是采用one—against—all实现的,本文分类 收稿 日期:2009—01—15 基金项 目:国家 自然科学基金资助项 目 通讯联系人:吴京慧 (1962一),女,江西南昌人,江西财经大学教授。E—mail:)hwuin@126.com l10 广西师范大学学报 :自然科学版 第 27卷 所采用的软件就是 LIBSVM 2.86[7]。 1.3 二阶段多类 SVM 分类方法论证 第一阶段聚类,包括 3个步骤:聚类、抽样、抽样子类分类。第一步,假设将Ⅳ个元素聚成K类,每类 元素的个数记为N (其中i一1,2,…,是)。第二步,对每个类进行抽样分类,设分类准确度为P,为了从K类 中选出准确度高的M

文档评论(0)

jgx3536 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6111134150000003

1亿VIP精品文档

相关文档