支持向量机在文本分类中的应用.docVIP

下载本文档

3
0
约4.76万字
约 15页
2017-07-07 发布于河南
举报
版权申诉

支持向量机在文本分类中的应用.doc

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

支持向量机在文本分类中的应用

支持向量机方法是建立在统计学习理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷，以期获得最好的推广能力(Generalizatin Abjlity)。支持向量机的方法主要有以下几个优点。 (1)它是专门针对有限样本情况的，其目标是得到现有信息下的最优解而不仅仅是样本数趋干无穷大时的最优值。 (2)算法最终将转化成为一个二次犁寻优|l口】题，从理论上说。得到的将是全局最优点，解决了在神经网络方法中无法避免的局部极值问题。 (3)算法将实际问题通过非线性变换转换到高维的特征空间(Feature Space)，在高维窄间中构造线性判别函数来实现原空间中的非线性判别函数，特殊性质能保证机器有较好的推广能力，同时它巧妙地解决了维数问题，其算法复杂度与样本维数无关。在支持向量机方法中，只要定义不同的内积函数，就可以实现多项式逼近、贝叶斯分类器、径向基函数方法、多层感知器网络等许多现自．学爿算法。 1 SVM的训练算法传统的利用标准二次型优化技术解决对偶问题的方法。是sVM训练算法慢及受到训练样本集规模制约的丰要原因。目前已提出了许多解决方法和改进算法，主要是从如何处理大规模样本集的训练问题、提高训练算法收敛速度等方面改进。以F 分为分解方法、修改优化问题法、增量学习法、几何方法等分别讨论。 1．1分解方法分解方法是SVM训练一般采用的途径。块算法．固定工作变量及方法、顺序最小。固定T作变量集方法思想是在迭代过程中。当前求解子问题的优化变量数目不变，即参与训练的样本集规模固定。工作样本集大小固定在算法速度可以容忍的限度内，迭代过程选择一种适合的换入换出策略，将剩余样本中的一部分与工作样本集中的样本进行等最交换。0Suna针对SVM训练速度慢及时间空间复杂度大的f’日J题，早就提出了该分解算法，并用于人脸检测。文献可中将训练样本分为T作样本集和非工作样本集，工作样本集中的样本个数为q 个，q远小于训练样本总数。顺序最小优化方法sM0(sequential Msnimal Optinlization)可以说是Osuna分解算法的极端特例，其工作样本集中只有两个样本。它把二次型寻优算法简化为线性寻优问题。SMO特别合适稀疏样本。其工作集的选择采用启发式，而不足传统的最陡下降法。算法丰要耗时是在最优条件的划断上。文献对sAO进行了改进，在迭代过程中的削优条件和循环策略上作了一定的修改，加快了算法的速度。Osuna通过试验分析提出了一种简单的丁作集选择方法，对复杂情形，采用该方法的SVM能较快地收敛。工作样本集大小的确定、如何确定工作样本集、如何确定合适的迭代策略是固。定工作样本集方法的主要问题。SVMI。ight 中做了以F改进工作：在工作样本集的选择漆。多个sVMLigh中是沿着最速F降可行方向d，有非零元素对应的q个优化变鼍构成～E作样本集。己经证明了只要最速下降可行方向d存在，则用相应子集构成的子问题可以进一步优化，而子问题的可行解也是原问题的可行解。这就解决了工作样本集／fi能包括所有支持向量的|．u】题。在实现细节上，文献中提出了连续收缩策略来缩小优化问题的规模，从而使算法能较好地处理大规模的训练集问题。此外，该方法对常用的参数进行缓存，以提高训练速度。 SVMLight常被用作各种算法比较的标准。 1．2增量学习方法上述方法均假设训练集大小固定，但现实|’口J题中这一要求在多数情况下是不能满足的。因此，希望学习机的学习精度应随应用过程中样本集的积累而逐步提高，即学习机应具有增鼍(Incremental Learning) 学习能力。经典sVM学习算法并不直接支持增毓学习。为解决加入新样本后的SVM训练问题，文献中用统计力学J：的Adatron方法训练 sVM巾的系数，它将系数的求解看成系统由小稳定态剑稳定态的变化过程。IlI Adatron 算法改进得出的Kemd—Adatron算法通过 2 1 8 科技资讯scIENcE＆T[cHNOLOGY INFORMArION 在线学习构建了大边际超平面，该算法实现简单，但只对于可分数据集有效。 1．3几何学习算法该类方法利用了训练集中的几何信息，从sVM的几何意义出发求解问题。文献中利用r训练向量的结构信息，提出厂用几何方法提取卫支持向母集，并使用卫支持向母集构建优化决策【l}i的方法。文献阵把SV原理建立在距离牢闻上，设计出基于领域原理的计算海量数据支持向鼍的算法，并进行了实验分析。研究表明，往人规模样本情况F，用领域原理方法求解支持向量速度极快，同时对计算机资源要求很低。领