- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于多模糊支持向量机的
文本分类学习算法研究
蔡慧颖 江铭虎
清华大学中文系计算语言实验室 北京 100084
jiang.mh@mail.tsinghua.edu.cn
摘要:反馈学习和增量学习能够将文本分类的训练过程拓展成一个可以循环
更新的系统,不断改善分类效果,不会受制于训练样本集的数量和质量。
本文以模糊支持向量机为基础,结合基于固定划分和过间隔技术,设计了一
种使用多个模糊支持向量机进行增量学习的文本分类系统。分类系统是基于语义
概念特征的,以知网为基础,对其进行了整理加权。
同时,该系统具有反馈功能,利用支持向量来评价文本的特征,能够根据测
试结果评估训练样本和测试样本的质量,优化、扩充训练集,提高文本分类系统
的性能。
实验表明,该系统对改善文本分类系统的分类效果和鲁棒性有较好的帮助。
关键词:文本分类,模糊支持向量机,增量学习,反馈学习,样本质量
一、绪论
随着信息存储技术和通信技术的迅猛发展,大量的文字信息开始以计算机可
读的形式存在,并且其数量每天仍在急剧增加,人们已经从信息缺乏时代过渡到
了信息极大丰富的时代。如何从浩如烟海的文献、资料数据(很大一部分是文本)
中迅捷有效地提取出所需信息也就成为了一项重要的研究课题。仅仅依靠人工对
繁多的资料进行组织、整理、查阅,存在着周期长、费用高、效率低等问题;若
能由计算机完成对文本的过滤、分类、检索工作,必能大大减轻人们的工作强度,
提高信息利用率。
文本分类(Text
本的内容或属性,将给定文本与一个或多个类别相关联的过程。
早期的文本分类工作都是由人类专家手工执行,费时费力,随着计算机技术
的发展,文本自动分类技术日臻成熟。所渭文本自动分类,是指借助某种计算机
程序,完成文本分类工作。
目前,最常用的文本分类技术是基于统计方法的,一个典型的基于统计学习
的文本分类器如图1所示:
-1分类器训练H_ l l— 训练过程
预处理/ 特征提取和 I
-———■’ -—-●
I徽7 形式化 选择 ● L——●
分类决策 分类结果
图1 一个典型的基于统计学习的文本分类器
本文主要是探讨在如何恰当地将学习策略引入到文本分类学习中去,将文本
分类器拓展成为一个可以循环更新的系统,提高其分类性能和鲁棒性。
二,学习策略
让计算机模拟人类,进行文本自动分类的过程,就是一个机器学习的过程。
比较人类学习的过程和计算机学习的过程,可以发现,无论计算机还是人在
文本分类过程中,都是先通过一定的途径(给定的样本或者日常生活、学习中的阅
读)来积累、掌握“类别含义”而后应用的过程。不同之处在于:早期的计算机的训
练过程通常是一次性完成的,并对应于具体的分类体系,遵循的足“学习一应用”
的模式;而人类则是逐渐积累的,并且通常是模糊类别记忆过程,并不限于某个
精确的分类体系,“学习一应用一再学习”的模式,而且人类具备主动学习的能力,
能够选择最有效的例子来学习。
对于常见的“学习一应用”型分类器来说,训练过程决定了分类器的分类能力。
要提高文本分类性能,就要改善训练结果。而改善训练结果的方法不外乎两种:
一是改进算法;二是增加训练文档的数量或提高训练文档的质量。在算法确定的
情况下,改善洲练结果的唯一途径就是增加训练文本的数蜃及提高训练文本的质
量。然而,收集整理训练文本,为训练文本标注正确的类别是一件很费时费力的
事。细细阅读成千上万篇文本,再筛选并精确地标注类别,对专业人员也不轻松。
而且,如果更改了分类体系,例如,更改了类别的划分,那么原先的训练文本整
理工作将全部推倒重来,这将造成人力物力的巨大浪费。
可见,一次性的训练学习所获得的分类器是脆弱、不具备长久生命力的。相
对于浩瀚的待分类样本,训练样本集的规模、覆盖性面临着挑战;既定的分类器
不懂得“更正错误”,一旦训练完成,被错分的样本永远被错分。机器学习是模拟
人类学习的方法,如果机器无
您可能关注的文档
最近下载
- 建筑工程图集 11SG814:建筑基坑支护结构构造.pdf VIP
- 电商平台客户投诉处理协调配合措施.docx VIP
- 快速心律失常的急诊处理PPT课件.ppt VIP
- 标准图集-新型城镇化-智能灯杆.pdf VIP
- 11SG814 建筑基坑支护结构图集.docx VIP
- 2024年11月江苏苏州市中医医院(西苑医院苏州医院)招聘编外人员笔试笔试历年专业考点(难、易错点)附带答案详解 .doc
- 广西壮族自治区家庭经济困难学生认定申请表.doc VIP
- 大闽食品(漳州)有限公司企业标准.doc VIP
- 施工企业安全生产事故报告及处理制度.docx VIP
- 电商平台纠纷处理与客服投诉管理方案.docx VIP
文档评论(0)