- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于紧密度的半监督文本分类方法.doc
一种基于紧密度的半监督文本分类方法
摘要:自动的文本分类己经成为一个重要的研究课题。在实际的应 用情况下,很多训练语料都只有一个数H存限的正例集合,同时语料 中的正例和未标注文档在数量上的分布通常也是不均衡的。因此这种 文本分类任务有着不同于传统的文本分类任务的特点,传统的文本分 类器如果直接应用到这类问题上,也难以取得令人满意的效果。因此, 本文提出Y—种基于紧密度衡景的方法来解决这一类问题。由于没有 标注出来的负例文档,所以,本文先提取出一些可信的负例,然后再 根据紧密度衡量对提取出的负例集合进行扩展,进而得到包含正负例 的训练集合,从而提高分类器的性能。该方法不需要借助特别的外部 知识库来对特征提取,因此能够比较好的应用到各个不同的分类环境 中。在TKEC’05(国际文本检索会议)的基因项目的文本分类任务语料 上的实验表明,该算法在解决半监督文本分类问题中取得了优异的成
本文采集自网络,本站发布的论文均是优质论文,供学习和研宄 使用,文中立场与本网站无关,版权和著作权归原作者所有,如有不 愿意被转载的情况,请通知我们删除己转载的信息,如果需要分享, 请保留本段说明。
关键词:计算机应用;中文信息处理;文本分类;半监督机器学习;
支持向量机;紧密度
中图分类号:TP391文献标识码.A
1简介
文本分类是指对于一个给定的文档集合D={dl,d2,…,dj,…} 和一个预定义的类别集合C={cl,c2,…以,…},把类别ci赋给文 档dj,建立集合D和集合C之间的一个映射。sebastiani [1]指出文 本分类任务就是用函数f : DXC-HO,1}来拟合未知函数f: DXC 一 {0, 1},而f就被称作是分类器。
在文本分类任务中,通常需要一个人工标注的训练集,包括正例 和负例文档,在此基础上分类器进行学习,并调整参数,建立适应于 当前分类任务的模板,最终实现对文本集合的正确自动分类。在大多 数情况下,训练集合只有一小部分标注出的正例和大量未标记的文本, 而未标注集合中仍存在着部分正例文档。如果简单的把包含有正例文 档的未标注集合视作是负例来训练分类器,对最后的分类结果会有相 当大的影响。然而,进行训练语料的标注不仅是相当耗时的工作,而 且也比较困难,因为不仅要保证标注结果的正确性,同时也需要使得 标注出的训练集能很好地反映语料的真实分布。
在训练集中,除去少数标注出的正例集合外,而只有一个未标注 集合一一也就是在整个的训练集合中,不属于任何类别的正例所构成 的混合集。这种情况下的文本分类任务被称作是半监督的文本分类, 这类的分类任务包含如下的一些特征.? 1)标注出的正例集合P的规模 都比较小;2)训练集合中的大部分数据都是未标注的,其中包含的既 有负例文档也有正例文档。
本文将主要讨论一种基于紧密度衡量的方法,从训练集合中提取 出一个“适合”大小的负例文档集合来提高文本分类的性能。本文第 二部分将介绍半监督文本分类的研究现状;第三部分将详细描述一种 新的解决半监督文本分类的算法,第四部分介绍实验的结果并进行比 较分析。
2相关工作及研究现状
在过去的时间里,在信息检索、机器学习和数据挖掘等领域都对 文本分类技术开展了大量的研究[2],也发展了相当多的分类技术,诸 如基于Roc — chio的分类器,朴素贝叶斯分类器(Naive BayesClassifier),支持向量机(Support Vector Machine), k 近邻 分类器(k-Nearest Neighbor)等等。但是这些技术都不能直接的应用 到半监督的文本分类任务中,因此很多的研究人员对于这类的半监督 的分类问题提出了 一些解决方法。
Sun等人[3]提出了一种基于特征来选择相应训练实例的方 法一一FISA算法。FISA算法包含两个步骤,第一步是计算各个特征的 区分能力,选择区分能力较高的特征进行实例选择;第二步是根据以 上的特征来进行训练实例的选取。Yu在文献[4]中提出了 PEBL算法,
这是一种基于SVM分类器的分类方法,用来对仅给出正例的Web网页 进行分类。在PEBL算法中,负例文档是通过对特征的分析提出来的, 负例文档中的特征不能出现在任何一个正例文档中。PEBL算法对于正 例文档的数目非常敏感,在正例文档特别少的情况下,通常性能比较 差。Nigam[5]指出,在大量的未标注数据中包含着相当数量的关于特 征的联合分布,因此,如果能够存效地把未标注文本和标注出来的正 例文本共同利用起来,构造分类器,能够极大地提高系统的性能。Liti[6] 针对半监督的文本分类提出了 S-EM算法。S-EM算法利用朴素贝叶斯 分类器和EM算法来解决该类问题。它把未标注的数据看作是一种不完 整的数据,用EM (Expectation Maximizat
您可能关注的文档
最近下载
- SEW M系列减速机选型样本.pdf VIP
- GCP的完整版题库.doc VIP
- 计算机网络安全期末考试题 .pdf VIP
- 全国烟草管理法律法规知识竞赛题库及答案(150题).docx VIP
- 【2024新版】一升二暑假作业数学每日一练-30天.pdf VIP
- 幼儿园五年发展规划(2025-2030年).pdf
- SH╱T 3556-2015 石油化工工程临时用电配电箱安全技术规范.pdf VIP
- (正式版)D-L∕T 856-2018 电力用直流电源和一体化电源监控装置.docx VIP
- 2025年上半年党风廉政建设工作总结及下半年计划汇报报告.docx VIP
- 地下管线探测方法试验报告.doc VIP
文档评论(0)