网站大量收购独家精品文档,联系QQ:2885784924

SVM和TF_RF的文本分类方法.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SVM和TF_RF的文本分类方法

136 2014 ,50(10) Computer Engineering and Applications 计算机工程与应用 基于LASVM-NC 和TF.RF 的文本分类方法 李玉鑑,李玉雄,冷强奎 LI Yujian, LI Yuxiong, LENG Qiangkui 北京工业大学 计算机学院,北京 100124 College of Computer Science, Beijing University of Technology, Beijing 100124, China LI Yujian, LI Yuxiong, LENG Qiangkui. Text classification method based on non-convex online support vector machines and term frequency relevance frequency product. Computer Engineering and Applications, 2014, 50 (10):136-140. Abstract :Non-convex online support vector machine (LASVM-NC )has the advantages of strong anti-noise ability and fast training speed, while term frequency relevance frequency product (tf.rf )is a very good text feature for adaptive classi- fication performance. LASVM-NC+tf.rf is proposed as a new text classification method by combining non-convex support vector machines with term frequency relevance frequency product. It has been shown that the method can perform better than LASVM-NC plus many other features. Moreover, the method can produce faster trained and more robust classifiers with greater generalization and sparser expression than SVM+tf.rf in processing noisy and large-scale datasets. Key words :non-convex online support vector machine; support vector machines; term weighting; term frequency; relevance frequency; text classification 摘 要:非凸在线支持向量机(LASVM-NC )具有抗噪能力强和训练速度快的优点,而词频相关频率积(tf.rf )则是一 种自适应能力很强、分类性能非常好的文本特征。通过把非凸在线支持向量机和词频相关频率积相结合,提出了一 种新的文本分类方法,即LASVM-NC+tf.rf。实验结果表明,这种方法在LASVM-NC 与多种其他特征的结合中性能 是最好的,且与SVM+tf.rf 相比,不仅所产生的分类器具有泛化能力更强、模型表达更稀疏的优点,而且在处理含噪 声的数据时具有更好的鲁棒性,在处理大规模数据时具有快得多的训练速度。 关键词:非凸在线支持向量机;支持向量机;特征项;词频;相关频率;文本分类 文献标志码:A 中图分类号:TP311 doi :10.3778/j.issn. 1002-8331.1207-0116 1 引言 可以是文本中出现的词项、短语或句子,也可以是具有 文本分类是指用计算机按照一定的标准对文本集 复杂语义或语法结构的索引单元。但是在实际应用中, 自动赋予类别标记,它在信息检索、文本挖掘和舆情分 特征项通常选择为一个文档集中出现的部分词项。假

文档评论(0)

ldj215322 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档