- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
石油、天然气工业
维普资讯
大 庆 石 油 学 院 学 报 第 32卷 第 2期 2008年 4月
JouRNAIOFDAQINGPETROlEUM INSTITUTE Vo1.32 No.2 Apr. 2008
基于支持 向量机的文本分类方法
刘祥楼 ,张 淼 ,刘得军。,姜继玉
(1.大庆石油学院 电子科学学院,黑龙江 大庆 163318; 2.中国石油大学(北京)机电工程学院,北京 102249)
摘 要:自动文本分类是信息处理的主要研究内容.分析 中文文本分类的基本过程和主要技术,并用支持 向量机
(SVM)实现文本分类.比较 多项式 、径 向基和 Sigmoid核 函数 的分类效 果.结 果表明,将 中文 自然语 言平台 的语 料库 中
1900个文本作为测试样本和训练样本 ,采用径向基核函数 的SVM 分类算法 ,实现 中文文本分类 的效果最佳 ,总准确率达
到 88.579 .
关 键 词 :文本分类 ;支持 向量机 ;核函数 ;特征项选择
中图分类号:TP391 文献标识码 :A 文章编号 :1000—1891(2008)02—0097—03
已有的文本分类方法有贝叶斯分类、k—NN、决策树 、线性最小二乘法估计 、支持向量机 (SVM)等.目
前,各种分类方法已经 出现许多改进算法 ,如基于训练样本分布不均匀问题的分析提 出的一种改进的 k—
NN文本分类算法L1],对条件概率加权因子改进后 的简单 贝叶斯文本分类[2等.笔者采用 SVM 方法实现
文本分类.sVM 是根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以获得最好 的推
广能力并能有效地解决 “过学习”问题 ,具有 良好的推广性和较好的分类精确性L3].不同的核函数将产生不
同的分类效果,分析多项式 、径向基和Sigmoid核函数的SVM 分类算法 ,以实现文本分类的最佳效果.
1 文本分类原理
1.1 分类过程
文本分类是根据文本 的特征将其分到预先设定的类别 中[1], 文本表示
是一个映射过程r2].它将未标 明类别 的文本映射到 已有的类别
中,该映射可以是一对一的,也可以是一对 多的,定义为 .厂:A— B
, 其中A为待分类的文本集合 ,B为分类体系中的类别集合 ,_厂为 图
分类系统的决策函数.文本分类过程见图 1.
1.2 向量表示
文本的表示主要采用向量空间模 型.该模型是 以向量来表示
文本 :w:(w ,W ,…,W ),其中w 为第 i个特征项的权重 ,实验 圈
选取词作为特征项.因此 ,要将文本表示 为向量 空间中的一个 向
量 ,首先要将文本分词.使用中国科学院计算技术研究所研制的汉 图1 文本分类过程
语词法分析系统 ,以词在文本中出现的频率为依据对文本向量化.其计算方法主要运用 TF--IDF公式Ⅲ :
W (t,d)一 tf(t,)log(N /n+0.01)
^—/=∑=====[=(====(=f==,===)=l=o=g==(=N====/===+===0=.O=1==)=]=,
V fC--d
式中:W (t,)为词 t在文本d中的权重 ;tf(t,)为词 t在文本d中的词频 ;N 为训练文本的总数 ;n为
收稿 日期:2007一l2—04;审稿人 :王 明吉 ;编辑 :王文礼
基金项 目:黑龙江省教育厅科学技术研究资助项 目(115110l5)
作者简介 :刘祥楼(1968一),男 ,硕士 ,副教授 ,主要从事智能仪器 、虚拟仪器方面的研究.
文档评论(0)