P17_面向支持量机的降维方法比较分析.docVIP

  • 3
  • 0
  • 约5.86千字
  • 约 6页
  • 2016-10-06 发布于贵州
  • 举报

P17_面向支持量机的降维方法比较分析.doc

P17_面向支持量机的降维方法比较分析

面向支持向量机的降维方法比较分析 朱慕华,朱靖波,陈文亮 (东北大学信息学院自然语言处理实验室,沈阳 110004) 支持向量机是文本分类领域在广泛采用的分类模型,应用于支持向量机的特征降维方法也成为了研究热点。本文考察了信息增益、文档频度、统计和潜在语义索引几种特征降维方法,同时在中英文数据集上进行了比较实验。结果表明,潜在语义索引在降维的同时使分类性能有明显的提高;而其余几种方法使性能严重下降,不适合做支持向量机的特征降维。 关键词:支持向量机;文本分类;特征降维 A Comparative Study on Dimension Reduction for SVMs Zhu Muhua, Zhu Jingbo, Chen Wenliang (Natural Language Processing Lab of Northeastern University, Shenyang 110004) Support Vector Machines (SVMs) are widely used for text categorization. In this paper, universal dimension reduction methods were studied for SVMs, including information gain, document frequency, test and latent semantic indexing. Experiment results over two datasets show that latent semantic indexing improve the performance as the number of dimension is reduced, and other methods are not appropriate for SVMs. Support Vector Machines; Text Categorization; Dimension Reduction 前言 文本分类是信息处理领域中一项基础性技术,该任务定义为:给定类别集合,为不带类别标注的文本赋予其中一个或多个类别。 一个文本通常被表示成高维向量的形式。为了去除噪音和降低计算复杂度,同时为了避免过学习的问题,通常需要对特征空间进行降维。人们已经对降维方法进行了深入研究。 根据降维后得到的结果特征的性质不同,降维方法分为特征选取和特征抽取两种。特征选取方法根据某种衡量准则,选择特征集合的子集作为分类的特征;特征抽取方法得到的特征类型通常与原先的特征不一致,而是原有特征的组合或转换。常用的特征选取方法包括互信息(Mutual Information, MI)、信息增益(Information Gain, IG)、文档频度(Document Frequency, DF)、统计等 [1]。特征抽取方法包括潜在语义索引(Latent Semantic Indexing, LSI)[2]、主成分分析(Principal Component Analysis, PCA)[3]等。 在文本分类中常用的分类模型,包括朴素贝叶斯(Na?ve Bayes),k最近邻居(k Nearest Neighbor, KNN),核心向量(Rocchio),支持向量机(Support Vector Machines, SVMs)等[4]。其中,SVMs在文本分类、图像识别等应用中都获得良好的性能。 SVMs是一个非常健壮的模型,可以利用所有的特征进行文本分类并取得良好的性能[5],但是在某些特殊应用中,例如高速数据处理环境,为了获得更好的效率,仍然需要对特征空间进行降维。到目前为止,人们对SVMs的所特有的特征选取方法进行了深入研究 [6][7]。这些方法通过估计SVMs的泛化错误上界,选取使错误上界最小的特征子集,可以达到较好的效果。但是相对传统的降维方法,这些方法的计算复杂度仍然较高。 本文将讨论将通用的降维方法与SVMs结合,应用到文本分类中。实验表明,与使用所有特征时相比,特征选取方法使分类性能严重下降,不适合作SVMs的特征降维,而应用特征抽取方法,在达到降维效果的同时,还使性能有所提高,获得了较为理想的结果。 SVM模型 支持向量机(SVM)是Vladmir及其同事在统计学习理论的基础上提出的[8]。根据统计学习理论,对学习机器的真实错误率的上界有如下不等式: (1) 以至少的概率成立。其中 ,表示训练样例的个数,是函数集的VC维。不等式(1)右侧的第一项叫经验风险,定义为,体现选定某个函数后在训练样本上的损失;第二项为置信范围,取决于的比值,体现学习机器的泛化能力。SVM以结构风险最小化作

文档评论(0)

1亿VIP精品文档

相关文档