- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于K-means的二阶段多类SVM分类器
第 27卷 第 1期 广西师范大学学报:自然科学版 Vo1.27 No.1
2OO9年 3月 JournalofGuangxiNormalUniversity:NaturalScienceEdition M ar.2009
基于K—means的二阶段多类 SVM 分类器
魏伟华,吴京慧
(江西财经大学信息管理学院,江西 南昌330013)
摘 要:提出了基于K—means的二阶段多类 SVM 分类方法。该方法分为二个阶段:第一阶段采用K—means
聚类,通过抽样精度来提高聚类准确度 ;第二阶段采用LIBSVM进行分类。通过使用LIBSVM 提供的语料进
行实验,结果显示比直接使用LIBSVM进行分类准确度提高了9.35%。
关键词:分类;一平均算法 ;二阶段多类支持向量机分类;LIBSVM
中图分类号:TP301.6 文献标识码:A 文章编号 :1001—6600(2009)01—0109—04
随着信息时代的来临,文本分类作为信息获取和过滤的手段,越来越受到人们的重视。典型的自动文
本分类方法有决策树和规则学习算法、回归方法、KNN方法、朴素贝叶斯方法、神经网络、支持 向量机
等 ’。
在 自动分类技术快速发展的同时,聚类作为数据挖掘的一种重要手段,也得到了飞速发展。聚类是一
个无导的学习过程,指事先没有 “标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。常用的
方法有基于层次的方法、基于划分的方法 (包括概率聚类、K一中心点算法、K—means算法等)、基于密度的
算法、基于网格的方法等等[3]。
聚类可以看成是无 “标签”的分类过程,与分类有着密切关系。本文针对二者的关系,提出先聚类再分
类的二阶段分类方法 。
1 基于K—means的二阶段多类 SVM 分类方法
基于K—means的二阶段多类SVM 分类方法涉及到二个阶段:第一阶段先对文本进行聚类,本文采
用的方法是K—means聚类方法,聚类后对聚类结果进行样本抽样,由于是小样本近似服从t分布,只需对
抽样精度及最大允许绝对误差进行合理设置,就可保证较高聚类准确度;第二阶段对抽样结果不理想的类
采用SVM 进行分类 。
1.1 K—means聚类算法介绍
本文 中聚类所采用的方法是K—means方法 。作为聚类算法的一个经典算法,K—means算法的特点是
试图找出使平方误差值最小的k个划分。当结果簇是密集的,而簇与簇之间区分明显时,它的效果较好。该
算法复杂度为O(nkT),其中k为类别个数, 是迭代次数。因此其可扩展性较好,对大数据集处理有较高
的效率。算法常以局部最优结束 。
1.2 多类 SVM分类器介绍
分类所采用的方法是多类SVM 分类器。由于SVM 算法最初是为二值分类问题设计的,当处理多类
问题时,就需要构造合适的多类分类器。目前,构造SVM 多类分类器的方法主要有两类:一类是直接法,
直接在 目标函数上进行修改,将多个分类面的参数求解合并到一个最优化问题中,通过求解该最优化问题
“
一 次性”实现多类分类。这种方法看似简单,但其计算复杂度 比较高,实现起来 比较困难 ,只适合用于小型
问题 中;另一类是间接法,主要是通过组合多个二分类器来实现多分类器的构造 ,常见的方法有 one—
against—one和one—against—all两种L6]。LIBSVM 中的多类分类就是采用one—against—all实现的,本文分类
收稿 日期:2009—01—15
基金项 目:国家 自然科学基金资助项 目
通讯联系人:吴京慧 (1962一),女,江西南昌人,江西财经大学教授。E—mail:)hwuin@126.com
l10 广西师范大学学报 :自然科学版 第 27卷
所采用的软件就是 LIBSVM 2.86[7]。
1.3 二阶段多类 SVM 分类方法论证
第一阶段聚类,包括 3个步骤:聚类、抽样、抽样子类分类。第一步,假设将Ⅳ个元素聚成K类,每类
元素的个数记为N (其中i一1,2,…,是)。第二步,对每个类进行抽样分类,设分类准确度为P,为了从K类
中选出准确度高的M
文档评论(0)