semi-supervisedtextcategorizationbyconsideringsufficiency.pptVIP

semi-supervisedtextcategorizationbyconsideringsufficiency.ppt

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
semi-supervisedtextcategorizationbyconsideringsufficiency

Semi-supervised Text Categorization by Considering Sufficiency and Diversity Shoushan Li ?? Sophia Yat Mei Lee? Wei Gao? Chu-Ren Huang? ? Natural Language Processing Lab, School of Computer Science and Technology, Soochow University, China ? CBS, The Hong Kong Polytechnic University, Hong Kong 目录 半监督文本分类 传统半监督方法所面临的问题 样本的多样性与充分性 多样性的实现 特征子空间差异性实现 实验设置 实验结果分析 结语 半监督文本分类 近些年来,半监督文本分类在自然语言处理研究领域获得了显著的发展。 半监督文本分类旨在少量的标注样本基础上,利用未标注样本,提高分类性能。 半监督情感分类常见方法: 自训练(self-training) 标签传播算法(LP) Tri-training EM 传统半监督方法所面临的问题 传统半监督学习方法(self-training)理论上应该是有效的: eg: This brand is the worst quality that I have purchased. I would avoid this brand. 分类器从未标注样本中学习额外知识 实际上传统半监督学习方法并不是很成功 多样性 充分性 样本的多样性与充分性 多样性(diversity):衡量半监督中加入的未标注样本与已标注样本之间的相似度。 充分性(sufficiency):衡量分类器对样本分类的准确性。 好的半监督学习方法应该考虑充分性的基础上,尽量保证样本的多样性,从而获得好的分类性能。 样本的多样性与充分性 多样性的实现 传统的半监督学习方法倾向于加入与已标注样本相似度较大的未标注样本。 利用随机特征子空间增加样本之间的差异性,每次迭代选取不同的特征子空间 保证相邻两轮迭代特征子空间的差异性 在上轮余下的特征空间中挑选特征 保证unigram的不同,扩展bigram 特征子空间差异性实现 以unigram作为种子词,扩展bigram eg: 若包含特征 excellent, 则特征 is_excellent, very_excellent 均被加入。 特征子空间的构建,unigram个数(r)固定,通过unigram加入与之相关的bigram。 保证相邻两轮迭代特征子空间中的unigram特征不同,从而降低了特征子空间中特征的相似度,如 excellent与is_excellent, 加大了相邻特征子空间的差异性。 实验设置 实验语料: 主题分类:20News,WebKB 情感分类:book, DVD, electronic, kitchen 实验设置 200篇样本作为测试语料,余下的作为标注样本和未标注样本 分类工具 MALLET 机器学习工具包中的最大熵分类器 分类效果衡量标准 分类准确率 分类方法对比 我们实现了以下分类方法的比较研究: Baseline: training a classifier with the initial labeled data (no unlabeled data is employed); Bootstrapping-T: the traditional bootstrapping algorithm; Bootstrapping-RS: the bootstrapping algorithm with random subspace classifiers; Bootstrapping-ES: the bootstrapping algorithm with excluded subspace classifiers; Bootstrapping-ES+: the Bootstrapping-ES implementation with a feature excluding strategy to guarantee the difference between different types of features, i.e., word unigrams and bigrams in this study.。 分类方法比较-主题分类 分类方法比较-情感分类

文档评论(0)

75986597 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档