semi-supervisedtextcategorizationbyconsideringsufficiency.pptVIP

下载本文档

4
0
约1.97千字
约 15页
2016-01-11 发布于天津
举报
版权申诉

semi-supervisedtextcategorizationbyconsideringsufficiency.ppt

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

semi-supervisedtextcategorizationbyconsideringsufficiency

Semi-supervised Text Categorization by Considering Sufficiency and DiversityShoushan Li ?? Sophia Yat Mei Lee? Wei Gao? Chu-Ren Huang?? Natural Language Processing Lab, School of Computer Science and Technology, Soochow University, China? CBS, The Hong Kong Polytechnic University, Hong Kong 目录半监督文本分类传统半监督方法所面临的问题样本的多样性与充分性多样性的实现特征子空间差异性实现实验设置实验结果分析结语半监督文本分类近些年来，半监督文本分类在自然语言处理研究领域获得了显著的发展。半监督文本分类旨在少量的标注样本基础上，利用未标注样本，提高分类性能。半监督情感分类常见方法：自训练（self-training）标签传播算法(LP) Tri-training EM 传统半监督方法所面临的问题传统半监督学习方法（self-training）理论上应该是有效的： eg: This brand is the worst quality that I have purchased. I would avoid this brand. 分类器从未标注样本中学习额外知识实际上传统半监督学习方法并不是很成功多样性充分性样本的多样性与充分性多样性(diversity)：衡量半监督中加入的未标注样本与已标注样本之间的相似度。充分性(sufficiency)：衡量分类器对样本分类的准确性。好的半监督学习方法应该考虑充分性的基础上，尽量保证样本的多样性，从而获得好的分类性能。样本的多样性与充分性多样性的实现传统的半监督学习方法倾向于加入与已标注样本相似度较大的未标注样本。利用随机特征子空间增加样本之间的差异性，每次迭代选取不同的特征子空间保证相邻两轮迭代特征子空间的差异性在上轮余下的特征空间中挑选特征保证unigram的不同，扩展bigram 特征子空间差异性实现以unigram作为种子词，扩展bigram eg: 若包含特征 excellent, 则特征 is_excellent, very_excellent 均被加入。特征子空间的构建，unigram个数（r）固定，通过unigram加入与之相关的bigram。保证相邻两轮迭代特征子空间中的unigram特征不同，从而降低了特征子空间中特征的相似度，如 excellent与is_excellent, 加大了相邻特征子空间的差异性。实验设置实验语料：主题分类：20News，WebKB 情感分类：book, DVD, electronic, kitchen 实验设置 200篇样本作为测试语料，余下的作为标注样本和未标注样本分类工具 MALLET 机器学习工具包中的最大熵分类器分类效果衡量标准分类准确率分类方法对比我们实现了以下分类方法的比较研究： Baseline: training a classifier with the initial labeled data (no unlabeled data is employed); Bootstrapping-T: the traditional bootstrapping algorithm; Bootstrapping-RS: the bootstrapping algorithm with random subspace classifiers; Bootstrapping-ES: the bootstrapping algorithm with excluded subspace classifiers; Bootstrapping-ES+: the Bootstrapping-ES implementation with a feature excluding strategy to guarantee the difference between different types of features, i.e., word unigrams and bigrams in this study.。分类方法比较-主题分类分类方法比较-情感分类