- 3
- 0
- 约5.86千字
- 约 6页
- 2016-10-06 发布于贵州
- 举报
P17_面向支持量机的降维方法比较分析
面向支持向量机的降维方法比较分析
朱慕华,朱靖波,陈文亮
(东北大学信息学院自然语言处理实验室,沈阳 110004)
支持向量机是文本分类领域在广泛采用的分类模型,应用于支持向量机的特征降维方法也成为了研究热点。本文考察了信息增益、文档频度、统计和潜在语义索引几种特征降维方法,同时在中英文数据集上进行了比较实验。结果表明,潜在语义索引在降维的同时使分类性能有明显的提高;而其余几种方法使性能严重下降,不适合做支持向量机的特征降维。
关键词:支持向量机;文本分类;特征降维
A Comparative Study on Dimension Reduction for SVMs
Zhu Muhua, Zhu Jingbo, Chen Wenliang
(Natural Language Processing Lab of Northeastern University, Shenyang 110004)
Support Vector Machines (SVMs) are widely used for text categorization. In this paper, universal dimension reduction methods were studied for SVMs, including information gain, document frequency, test and latent semantic indexing. Experiment results over two datasets show that latent semantic indexing improve the performance as the number of dimension is reduced, and other methods are not appropriate for SVMs.
Support Vector Machines; Text Categorization; Dimension Reduction
前言
文本分类是信息处理领域中一项基础性技术,该任务定义为:给定类别集合,为不带类别标注的文本赋予其中一个或多个类别。
一个文本通常被表示成高维向量的形式。为了去除噪音和降低计算复杂度,同时为了避免过学习的问题,通常需要对特征空间进行降维。人们已经对降维方法进行了深入研究。
根据降维后得到的结果特征的性质不同,降维方法分为特征选取和特征抽取两种。特征选取方法根据某种衡量准则,选择特征集合的子集作为分类的特征;特征抽取方法得到的特征类型通常与原先的特征不一致,而是原有特征的组合或转换。常用的特征选取方法包括互信息(Mutual Information, MI)、信息增益(Information Gain, IG)、文档频度(Document Frequency, DF)、统计等 [1]。特征抽取方法包括潜在语义索引(Latent Semantic Indexing, LSI)[2]、主成分分析(Principal Component Analysis, PCA)[3]等。
在文本分类中常用的分类模型,包括朴素贝叶斯(Na?ve Bayes),k最近邻居(k Nearest Neighbor, KNN),核心向量(Rocchio),支持向量机(Support Vector Machines, SVMs)等[4]。其中,SVMs在文本分类、图像识别等应用中都获得良好的性能。
SVMs是一个非常健壮的模型,可以利用所有的特征进行文本分类并取得良好的性能[5],但是在某些特殊应用中,例如高速数据处理环境,为了获得更好的效率,仍然需要对特征空间进行降维。到目前为止,人们对SVMs的所特有的特征选取方法进行了深入研究 [6][7]。这些方法通过估计SVMs的泛化错误上界,选取使错误上界最小的特征子集,可以达到较好的效果。但是相对传统的降维方法,这些方法的计算复杂度仍然较高。
本文将讨论将通用的降维方法与SVMs结合,应用到文本分类中。实验表明,与使用所有特征时相比,特征选取方法使分类性能严重下降,不适合作SVMs的特征降维,而应用特征抽取方法,在达到降维效果的同时,还使性能有所提高,获得了较为理想的结果。
SVM模型
支持向量机(SVM)是Vladmir及其同事在统计学习理论的基础上提出的[8]。根据统计学习理论,对学习机器的真实错误率的上界有如下不等式:
(1)
以至少的概率成立。其中 ,表示训练样例的个数,是函数集的VC维。不等式(1)右侧的第一项叫经验风险,定义为,体现选定某个函数后在训练样本上的损失;第二项为置信范围,取决于的比值,体现学习机器的泛化能力。SVM以结构风险最小化作
您可能关注的文档
- OCR(联机手写字识别).doc
- OC中文件管理的识小结及案例20150130.docx
- OFDM-Tutrial_matlab.doc
- Office 207终极防护技巧全接触.doc
- Office 210在win7上安装出现1935错误及软件激活的解决方法.doc
- Office 213 必须了解的知识.doc
- OFFICE O THE COUNCIL OF MINISTERS OF Cambodia.doc
- office 办软件操作技巧大全.doc
- office+210安装.doc
- office200激活密钥.doc
- 伟明环保-市场前景及投资研究报告-境内业务稳健运行,印尼市场贡献边际增量.pdf
- 桂东县法院系统招聘考试真题2025.pdf
- 贵州省黔南布依族2026年中考三模物理试题及答案.pdf
- 贵州省黔南州2026年中考语文二模试卷附答案.pdf
- 贵州省铜仁市2026年中考语文二模试卷附答案.pdf
- 2026上半年安徽事业单位联考合肥市庐江县招聘36人备考题库及一套完整答案详解.docx
- 贵州省毕节市2026年中考语文一模试卷附答案.pdf
- 贵州省贵阳市南明区2026年中考语文一模试卷附答案.pdf
- 2026上半年安徽事业单位联考合肥市庐江县招聘36人备考题库及一套参考答案详解.docx
- 贵州省贵阳市白云区2026年中考二模物理试题附答案.pdf
最近下载
- 2024年浙江省中考英语真题卷(含答案与解析)_7429.pdf VIP
- 华东师大版八下历史第二单元第4课-“大跃进”和人民公社化运动PPT24张.ppt VIP
- 2012上海杨浦区高三英语二模试卷及答案.doc VIP
- FANUC数控车床的主轴控制设计.doc VIP
- 2022年ISGE指南:宫腔镜子宫肌瘤切除术(全文).docx VIP
- 2025年湖南省长沙市中考英语真题(附答案).pdf VIP
- 怎么参加展会才能获得客户.doc VIP
- 设计斜齿轮零件的机械加工工艺规程.doc VIP
- 安徽省经济潜在增长率的测算、分析与展望:基于多维度视角与实证研究.docx
- 基于大数据植入广告发展趋势研究.doc VIP
原创力文档

文档评论(0)