P17_面向支持向机的降维方法比较分析.docVIP

下载本文档

0
0
约 6页
2017-05-08 发布于贵州
举报
版权申诉

P17_面向支持向机的降维方法比较分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

P17_面向支持向机的降维方法比较分析

面向支持向量机的降维方法比较分析朱慕华，朱靖波，陈文亮（东北大学信息学院自然语言处理实验室，沈阳 110004）支持向量机是文本分类领域在广泛采用的分类模型，应用于支持向量机的特征降维方法也成为了研究热点。本文考察了信息增益、文档频度、统计和潜在语义索引几种特征降维方法，同时在中英文数据集上进行了比较实验。结果表明，潜在语义索引在降维的同时使分类性能有明显的提高；而其余几种方法使性能严重下降，不适合做支持向量机的特征降维。关键词：支持向量机；文本分类；特征降维 A Comparative Study on Dimension Reduction for SVMs Zhu Muhua, Zhu Jingbo, Chen Wenliang (Natural Language Processing Lab of Northeastern University, Shenyang 110004) Support Vector Machines (SVMs) are widely used for text categorization. In this paper, universal dimension reduction methods were studied for SVMs, including information gain, document frequency, test and latent semantic indexing. Experiment results over two datasets show that latent semantic indexing improve the performance as the number of dimension is reduced, and other methods are not appropriate for SVMs. Support Vector Machines; Text Categorization; Dimension Reduction 前言文本分类是信息处理领域中一项基础性技术，该任务定义为：给定类别集合，为不带类别标注的文本赋予其中一个或多个类别。一个文本通常被表示成高维向量的形式。为了去除噪音和降低计算复杂度，同时为了避免过学习的问题，通常需要对特征空间进行降维。人们已经对降维方法进行了深入研究。根据降维后得到的结果特征的性质不同，降维方法分为特征选取和特征抽取两种。特征选取方法根据某种衡量准则，选择特征集合的子集作为分类的特征；特征抽取方法得到的特征类型通常与原先的特征不一致，而是原有特征的组合或转换。常用的特征选取方法包括互信息（Mutual Information, MI）、信息增益（Information Gain, IG）、文档频度（Document Frequency, DF）、统计等 [1]。特征抽取方法包括潜在语义索引（Latent Semantic Indexing, LSI）[2]、主成分分析（Principal Component Analysis, PCA）[3]等。在文本分类中常用的分类模型，包括朴素贝叶斯(Na?ve Bayes)，k最近邻居（k Nearest Neighbor, KNN），核心向量（Rocchio），支持向量机（Support Vector Machines, SVMs）等[4]。其中，SVMs在文本分类、图像识别等应用中都获得良好的性能。 SVMs是一个非常健壮的模型，可以利用所有的特征进行文本分类并取得良好的性能[5]，但是在某些特殊应用中，例如高速数据处理环境，为了获得更好的效率，仍然需要对特征空间进行降维。到目前为止，人们对SVMs的所特有的特征选取方法进行了深入研究 [6][7]。这些方法通过估计SVMs的泛化错误上界，选取使错误上界最小的特征子集，可以达到较好的效果。但是相对传统的降维方法，这些方法的计算复杂度仍然较高。本文将讨论将通用的降维方法与SVMs结合，应用到文本分类中。实验表明，与使用所有特征时相比，特征选取方法使分类性能严重下降，不适合作SVMs的特征降维，而应用特征抽取方法，在达到降维效果的同时，还使性能有所提高，获得了较为理想的结果。 SVM模型支持向量机（SVM）是Vladmir及其同事在统计学习理论的基础上提出的[8]。根据统计学习理论，对学习机器的真实错误率的上界有如下不等式： (1) 以至少的概率成立。其中，表示训练样例的个数，是函数集的VC维。不等式(1)右侧的第一项叫经验风险，定义为，体现选定某个函数后在训练样本上的损失；第二项为置信范围，取决于的比值，体现学习机器的泛化能力。SVM以结构风险最小化作