- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于主动学习交互式支持向量机文本分类学习方法
基于主动学习的交互式支持向量机文本分类学习方法 摘 要本文以支持向量机文本分类方法为基础,针对学习过程中样本较少、分类精度不高的问题,提出基于主动学习的交互式支持向量机文本分类方法,即依据已知样本设计分类规则,然后通过主动学习提取不确定样本,二次构建交互式分类器。实验表明,该方法优化了文本分类器学习能力,具有更好的推广能力
【关键词】文本分类 支持向量机 主动学习
在文本分类领域,支持向量机以最优超平面求得线性可分,在小数量的训练样本情况下能够达到较好的学习能力。然而在监督学习中,对于训练样本较少,文本数据高维的情况下,传统方法的分类精度不高。我们发现一般情况下的支持向量机文本分类方法,不确定样本的个数往往远远大于训练样本的个数,并且在不确定样本集中有很多对分类影响的样本元素。这样一来,实际上就可以将部分不确定样本利用起来,以提高分类器的精度。而文本分类的主动学习方法,则是在学习过程中,建立交互式能力。即将训练样本的被动学习改变为选择对分类有影响的样本进一步学习,从而提高分类器的分类精度。因此,我们将主动学习和支持向量机文本分类方法结合起来,提出基于主动学习的交互式支持向量机文本分类方法
1 交互式支持向量机分类算法
对于文本分类而言,主动学习是在待分类样本集S中,根据已知样本,建立分类器,通过主动学习将分类器不确定的样本进行评价,然后再优化分类器,使分类方法成为一个交互式学习的过程。对于正负两类问题,设分类器对未知样本的测试概率分别为p0(x),p1(x),p0(x)+p1(x)=1;根据香农熵公式,则得出,样本的|p0(x)-p1(x)|越小,对分类器的不确定度也就越大
交互式支持向量机文本分类方法是利用支持向量机实习主动学习,以实现通过最优超平面达到线性可分。设样本标记x到超平面q的距离为d(x0,q),则p0(x)-p1(x)∞d(x,q)。交互式主动学习新样本选择策略为:取x0,使得d(x0,q)=min(d(x,q)),其中x∈s,即未知样本应靠近分类边界。对于交互式支持向量机的线性可分而言,在进行下一步分类器设计时,需要考虑两个方面的内容,即一是超平面的分类边界缝隙存在未知样本,分类边界调整的;二是超平面分类边界缝隙不存在未知样本,分类边界也存在调整的。因此,分类算法步骤如下:
(1)构建训练样本集合
(2)利用训练样本得到分类器,即支持向量模型q
(3)若与超平面分类边界缝隙存在样本点,则选择距离超平面分类边界最近的x评价,然后将其加入训练样本集,并返回,直至超平面分类边界缝隙不存在样本点
(4)从训练样本中,随机选择x,利用分类器对其进行阈值判定学习,直至评价结果一致
2 算法分析
2.1 推广能力
支持向量机算法是以统计学习理论为基础的,其主要思想是结构风险最小化。对于文本分类而言,分类器的推广能力是将实际风险最小化。本文结合主动学习和支持向量机方法方法,构建分类器,通过最优超平面使得分类间隔最大化为思路,分类间隔随着学习不断减少,这样一来是随着样本的增加,分类器对训练样本的错误将呈下降趋势。因此,与普通支持向量机方法分类方法相比,交互式支持向量机方法具有较好的推广能力
2.2 文本过滤
文本信息过滤,通过情况下均是采用向量空间法,也就是将过滤器转化为机器学习的过程。向量空间的特征位数一般较高(10000),而高维的特征向量是影响分类速度和精度的,特别是在未知样本大量存在的情况下,文本的分类性能在很大程度上降低。因此,我们通过主动学习未知样本,二次构建分类器,将文本过滤模式过程改变为交互式学习,符合现实的文本分类环境
3 支持向量机分类方法实验对比分析
我们从选取2015年网易新闻集作为数据来源,抽取文本信息共计2078篇。其中,1354篇作为训练样本,724篇作为测试样本。经过预处理后,共有5621个词,用于分类器设计。文本分类主要涉及财经、军事、体育、历史、科技、娱乐等方面,选择文本量前五位做为有效对比数据,通过利用本文所提出的基于主动学习的交互式支持向量机分类方法与传统的支持向量机分类方法进行对比分析。结果如表1
通过表1我们可以看到,文本识别方面,两类支持向量机均能识别出测试样本的主要文本类型,交互式支持向量分类方法除科技外,其他的文本识别都要比传统支持向量机要高,交互式支持向量机分类方法的分类精度明显较高
4 总结
对于文本分类的监督学习算法,基于主动学习的交互式支持向量机分类算法可以在小样本情况下,能够通过交互式学习,提取不确定样本的决策因子,进而实现二次构建分类器,以提高分类器的精度和效率,具有较好的推广能力。此外,在交互式学习中,不确定样本的提取阈值以及提高分类器精度方面的定量分析还需更多的验证,
您可能关注的文档
最近下载
- 内部调动审批表(模板) .pdf VIP
- 《职工非因工伤残或因病丧失劳动能力程度鉴定标准(试行)》.doc VIP
- 民宿项目建设可行性研究报告.docx VIP
- IEC 61133-2006 车辆组装和运行前的整车试验规范(中文).docx VIP
- 部编人教版七年级历史上册第19课《北魏政治和北方民族大交融》说课课件(共24张).ppt VIP
- 2025年儿童青少年近视防控白皮书.pdf VIP
- 2024年执业助理医师(临床)考试备考重点题库(600题版).doc VIP
- 2023年口腔助理医师考试备考重点题库(600题版).docx VIP
- 临床研究答辩.pptx VIP
- 西门子S7-200 SMART PLC应用技术图解项目教程全册教案.docx VIP
文档评论(0)