一种改进的SVM文本分类算法.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种改进的SVM文本分类算法.pdf

\\\、 文章编号:1007—1423(2014)26—0016—05 DOI:10.3969~.issn.1007—1423.2014.26.003 一 种改进的SVM文本分类算法 王义忠,刘循,吴迪 (四川大学计算机学院,成都 610065) 摘要 : 在研究基于支持向量机进行文本分类一般步骤的基础上.针对 Key-Substring-Group文本分类算法存在非线性支持 向量机对核函数和参数C的强依赖的问题 .用欧氏距离代替支持向量机训练得到的分类决策面进行分类决策,对文 本分类算法进行改进。通过对比试验,发现分类效果不会随着核函数及参数C的变化而有明显的波动。 关键词 : 支持向量机;文本分类;核函数;欧氏距离 0 引言 本文借用文献 1『1和文献 2『1提到的用欧氏距离代替 分类超平面进行分类决策的方法,对文献f31的方法进 基于支持向量机进行文本分类的方法 以其 良好的 行改进 .从而达到去除非线性支持向量机对核函数的 泛化能力以及结构化风险最小等优点得到科技工作者 选择和参数C选取过度依赖的目的 通过选取不同的 的青睐。 核函数以及不同参数 C对方法改进前后分类效果进行 文献fl1提出了一种 Euclidean—SVM方法。该方法 对 比实验 .我们发现本文的改进方法确实对核函数的 首先用支持向量机算法得到每一类所对应的支持 向 选取以及参数C的选择不存在过度依赖 量 .然后分别求待分类样本和每一个类支持向量的平 均距离,最后将平均距离最小的类别赋予待分类样本。 1 支持 向量机文本分类 该算法在分类的测试阶段用欧几里德距离代替了训练 1.1支持向量机 (SVM)算法原理 得到的分类超平面来对测试样本进行分类 .从而减小 近几十年来.支持向量机得到了快速发展。支持向 了核函数的选择和C参数选取对分类结果的影响。文 量机遵循结构化风险最小原则.因此有很强的泛化能 献 1『1的实验结果证明,选取不同的核函数以及不同的 力.被誉为最好的分类方法。支持向量机主要思想在于 C值 。分类精度未发生大的变化。 试图寻找一个最优的分类决策面.该分类决策面能够 在大量的文本分类工作中.人们习惯性将文本量 使得边距最大化。分类决策面表达式如下 : 化为单词向量 .然后进行后续的模型训练分类测试等 · X+6=O 工作。文献f31另辟蹊径,将文本当作整体字符串进行考 虑,利用后缀树结构抽取关键字符子串组.再将该抽取 图1是个线性可分支持向量机的例子 如图所示. 的特征作为支持向量的输入进行分类训练.最后用训 白色圆点代表一类。黑色圆点代表一类。从图中我们可 练得到的分类超平面进行分类测

文档评论(0)

月光般思恋 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档