基于多粒度计算和多准则融合的情感分类精选.pdf

基于多粒度计算和多准则融合的情感分类精选.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于多粒度计算和多准则融合的情感分类精选

ISSN 1000—0055 清华大学学报 (自然科学版) 2015年 第 55卷 第 5期 3/18 JTsinghuaUniv(Sci&Techno1),2015,Vo1.55,No.5 497—5O2 基于多粒度计算和多准则融合的情感分类 王丙坤 , 黄永峰, 李 星 (清华大学 电子 工程 系,北京 100084) 摘 要 :随着在线用户生成 内容的激增,无监督情感分类方 随着评论和社交媒体 的飞速发展 ,用户生成 内 法有着广泛应用前景 。现有基于情感词 的无监督情感分类 容出现爆炸式增加 。如何有效挖掘用户生成 内容 中 方法没有考虑句子类型和句 间关系对情感分类的影响,分类 的观点信息,对 自然语 言处理和 Web挖掘提出了 效果较差;基于 自学习的无监督情感分类方法在生成伪标 新挑战 ]。因此,网络文本情感分类技术受到 了越 注数据集时,又会 引入较多错误 。针对上述 问题 ,该文提 出 来越多的研究 J。 了一种基于多粒度计算和多准则融合的无监督情感分类方 现有情感分类方法主要分为 3类 :有监督、无 法 该方法通过多粒度计算 ,提高现有基于情感词 的无监 督情感分类精度 ;同时通过多准则融合来减少伪标注数据 监督和半监督方法_3]。有监督方法主要采用传统文 错误率。在 3个真实中文数据集上的实验结果表明:与现 本分类器实现情感分类 ]。与传统文本分类方法不 有无监督情感分类方法相比,该方法平均提高了6.5 的分 同,情感分类具有较强的领域依赖性[c]。为获得较 类精度 。 好性能,有监督方法需要大量人工标注训练数据 , 关键词:情感分类;无监督方法;多粒度计算;多准则融合 同时,要求测试数据和训练数据的领域分布尽量一 中图分类号 :TP391.1 文献标志码 :A 致 ]。为每个领域标注大量训练数据是一项费时、 文章编号 :1000—0054(2015)05—0497-06 费力 、消耗大的工作,已成为有监督方法应用的主 要瓶颈。 为解决人工标注大量数据的问题 ,出现 了只需 少量标注数据 的半监督方法和不需要标注数据的无 监督方法。在半监督方法中,现有研究成果主要 以 少量人工标注数据为初始训练集 ,训练情感分类 器 ;然后基于 自学习框架 ,通过选择可信度高的数 据加入初始训练集 ,迭代训练分类器 ,最终实现情 感分类 书]。现有无监督方法主要有 2类 :一是基 于种子情感词扩展或情感词典实现情感分类 ; 二是以基于情感词的无监督方法为基础 ,采用 自学 习框架 ,生成伪标注数据集 ,训练 自学习情感分类

文档评论(0)

tazhiq2 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档