- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
东 莞 理 工 学 院 学 报
第l5卷第3期 JOURNAL OF DONGGUAN UNIVERSn Y OF TECHNOLOGY V01.15 N0.3
2008年6月 Jun. 2008
基于SV M的文本分类系统设计与实现
陈子昕
(东莞理工学院 城市学院,广东东莞523106)
摘要:文本分类是指在给定分类体系下,根据文本的内容自动确定文本类男 的过程.阐述了一个文本
分类系统的设计和实现。对文本分类系统的系统结构、预处理、特征提取、词义扩展、学习和识别过程、
分类算法等进行了详细介绍。引,smooth技术改进词语权重,介绍向量空间模型.结果表明查全率和准确
率均达到8O%左右,而且smooth的引入有效地改善了分类性能.
关键词:文本分类:分类算法:特征提取;词义扩展:向量空问模型
中图分类号:TP311.1l 文献标识码:A 文章编号:lOo9—0312(2008)03-0038-06
随着信息网络在全球范围的兴起,网络成了复杂文本结构、图形、图像、声音等海量信息的载
体。文本分类作为信息处理的一个研究热点,它可以降低网络查询时间,提高网络搜索质量,方
便网络用户,从而使快速有效地获取文本信息成为可能 ’。
文本分类是指在给定的分类体系下,根据文本的内容自动地确定文本关联的类别的过程。从数
学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可
以是一一映射,也可以是一对多的映射。
. 厂:A—j!}其中,A为待分类的文本集合, 为分类体系中的类别集合。
文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而
建立的判别公式和判别规则。然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类
别。文本分类技术已经在搜索引擎、邮件分类、信息过滤、防火墙等领域得到了广泛的应用。
本文阐述了一个文本分类系统的设计和实现。对文本分类系统的系统结构、预处理、特征提
取、词义扩展、学习和识别过程、分类算法等进行了详细介绍。
1 系统设计
1.1 分词 (Word Segment)
分词就是在文本连续的词条间加入分隔符,将文本从连续字符流形式转化为离散词流形式的过
程。分词后,一般引入停用词表和高频词表剔除对分类没有多大影响的词语。各种不同的分词方法
会对结果有所影响。分词的具体方法如下:
本文使用WordNet文本中的非字母的特殊字符进行分割,包含了对单词之间连接符号“.”的处
理,前面的方法作为一个单词来处理,这种方法是将单词分拆成多个单词,然后将得到的单词使用
WordNet查得词性和词根,得到动词、名词和形容词,丢弃其他词性的单词,并且将得到的词根加
入全局单词序列,和本文档的单词序列。而且我们丢弃了长度小于4个和长度大于29个的单词,我们
认为这样的单词基本上代表的文章的信息量太少。
1.2 词义扩展 (Word Segment)
一 般地,一篇文章中存在大量的同义词,它们义同形异,它们一起很好地表征了该文章所属的
类别。使用单词语义 (同义词集合)而不是单词来表述特征项,可以将一个类别突出表达在几个特
收稿日期:2008一O3一O5
作者简介:陈子昕(1980一),女,湖南衡阳人,主要从事计算机应用研究。
第3期 陈子听:基于SVM的文本分类系统设计与实现 39
征上。我们利用语义而不是词形作为向量空间模型中特征向量的特征项。
一 般的来说,词义扩展会提高文本分类的效果,但不加约束,纯粹地将所有的相关或者相似的
词用以扩展反而会降低性能。因此这个工作需要一个比较好的扩展方法来增强分类的性能。
WordNet中的求2个单词的相关度的算法如下:
(1)首先判断2个单词的词性是否相同,若不相同,相关度为0;
(2)再判断2个单词在WordNet中是否存在公共节点,如不存在相关度为O;
(3)若存在公共节点,则求公共节点
您可能关注的文档
最近下载
- 新人教版高中数学必修第二册统计全套课件.pptx VIP
- 台球厅消防安全应急预案.docx VIP
- 海外代理协议合同协议.docx VIP
- 初中教科研课题:《初中语文预习方法研究》课题研究工作报告.doc VIP
- 2025至2030年中国新疆维吾尔自治区建筑市场运行态势及行业发展前景预测报告.docx
- 简述10KV 高压配电柜安装.doc VIP
- GB50148-2010 电气装置安装工程电力变压器油浸电抗器、互感器施工及验收规范.pdf VIP
- 2025航天恒星科技有限公司招聘80+人笔试历年参考题库附带答案详解.pdf
- RB∕T 174-2021 司法鉴定法庭科学机构能力专业要求.pdf
- CP-717安装指南.doc VIP
文档评论(0)