SVM在文本分类中的应用研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SVM在文本分类中的应用研究   摘要:本文研究了支持向量机(SVM)在文本分类中的应用,阐述了支持向量机及核函数等理论,并就文本的性能进行了实验证明。   关键词:文本分类;支持向量机;核函数   中图分类号: TP391; TP18 文献标识码:B文章编号:1672-5913(2007)02-0072-04      支持向量机(Support Vector Machine,简称SVM)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。传统统计模式识别的方法都是在样本数目足够多的前提下进行研究,所提出的各种方法只有在样本数趋于无穷大时其性能才有理论上的保证,而在多数实际应用中,样本数目通常是有限的,很多传统方法都难以取得理想的效果。Vapnik等人早在20世纪60年代就开始研究有限样本情况下的机器学习问题。20世纪90年代,有限样本情况下的机器学习理论研究逐渐成熟起来,形成了一个较完善的理论体系――统计学习理论(Statistical Learning Theory)。1992年到1995年,在统计学习理论的基础上发展出了一种新的模式识别方法――支持向量机。随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。SVM是继k-近邻、神经网络、相素贝叶斯等方法之后被用于文本分类,并且是在Reuter语料(包括21450版本和Apte给出的集合)上能取得非常好的结果的文本分类算法之一。   本文重点研究SVM在两个不同的语料集上,选择不同的特征维数,采用四种不同的核函数的分类性能比较。实验结果表明,这种方法削弱了训练样本分布的不均匀性对分类性能的影响,可以将微平均准确率提高大约1%~2%。   本文第1节将阐述支持向量机算法的基本思想;第2节介绍目前广泛应用的三种核函数;第3节给出了在著名的英文语料集Reuters-21578上的实验结果与分析;第4节是结论和进一步工作展望。      1统计学习理论与支持向量机      统计学习理论就是研究小样本统计估计和预测的理论,具有很好的泛化能力,为解决有限样本学习问题提供了一个统一的框架。它能将很多现有方法纳入其中,有望帮助解决许多原来难以解决的问题(比如神经网络结构选择问题、局部极小点问题等);同时,在这一理论基础上发展了一种新的通用学习方法――支持向量机(SVM) 。   SVM是一种建立在统计学习理论基础上的机器学习方法,有较好的推广性能和较高的分类准确率。该算法基于结构风险最小化原理,将数据集合压缩到支持向量集合(通常为前者的3%~5%),学习得到分类决策函数。其基本思想是构造一个超平面作为决策平面,使正负模式之间的间隔最大。   SVM方法是从线性可分情况下的最优分类面提出的。如图1所示,圆圈和实心点分别代表两类的训练样本,H为把两类没有错误地分开的分类线,H1、H2分别为过各类样本中离分类线最近的点且平行于分类线的直线,H1和H2之间的距离叫做两转类的分类间隔(Margin)。支持向量与超平面之间的距离为1/‖ω‖,则支持向量间距为2/‖ω‖寻找超平面的问题,可化为求解以下二次规划问题:               3.3实验结果与分析   为了考察算法的效果,我们采用了VC++6.0实现本文算法,部分源代码采用复旦大学计算机与信息技术系李荣陆提供的文本分类器系统源代码。实验分为三个阶段。   表1、表2实验结果表明,不论是在英文语料集还是中文语料集,使用SVM分类系统均能达到较好的分类效果,而实验中采用多项式核函数和Sigmoid函数进行比较,经证明,在多数情况下前者优于后者。         4结束语      本文就文本分类的过程和关键技术进行了论述,并就不同核函数下文本分类的效果进行了实验验证,证明SVM是一种行之有效的文本分类方法。在今后的研究中,如何提高SVM算法的效率将是工作的重点。      参考文献:   [1] V. Vapnik. The nature of Statistical Learning Theory[J]. Springer, New York, 1995.   [2] Therson Joachims. Text Categorization with Support Vector Machines: Learning with Many Relevant Features. In European Conference on Machine Learning(ECML)[J]. Springer,Berlin, 1998.      投稿日期:2006

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档