微博情感分析评测总结课件.ppt

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
致谢 感谢腾讯微博提供数据! 感谢北京大学、苏州大学、哈工大深圳研究生院的老师和同学进行数据标注与测评! 感谢评测参与单位的支持和意见反馈! * 微博情感分析评测总结 第一届自然语言处理与中文计算会议 2012年11月2日 1北京大学计算机科学技术研究所 2苏州大学计算机科学与技术学院 3哈工大深圳研究生院计算机科学与技术学科部 万小军1、李寿山2、徐睿峰3 任务设置 观点句识别 情感倾向性判断 针对观点句 情感要素抽取 针对观点句 数据集 来自腾讯微博数据 原始数据集 20话题 主要是热门事件,如“三亚春节宰客” 约17500条微博 约32000个句子 数据集 数据标注 三标注者对同一数据标注 数据集大小 2023条微博 3416个句子 1209个非观点句 2207个观点句 407正面、1766负面、34其他 2361个对象 441正面、1910负面、10其他 数据集 标注标准 关于观点句 个人意愿、心情不是观点句,如“我感到很高兴” 表达了明显观点的反问句属于观点句,如“体育竞技有不残酷的吗?” 关于观点句倾向性 正面、负面,其他(Other)三类,“其他”表示中性或无法确定正负的情况 不进行 数据集 标注标准 关于观点句情感对象 情感对象优先从当前句子抽取,但可以跨越当前句子从前面的句子或后面的句子中抽取(前面的邻近句子优先) 情感对象尽可能完整和明确,事件按细粒度标注: “ipad的屏幕很棒!”-> “ipad的屏幕” “官二代陶汝坤:作案动机极其卑劣”-> “作案动机” 对象本身不是情感表达: ”#官二代求爱不成将少女毁容# 这种畜生是怎么被教育出来的啊!!!!” -> “官二代” 人称代词需要尽可能在当前微博内进行指代消解: “小明就读于北京大学,他是名优秀的学生。”->”小明“ 抽取出句子中每个情感片段所对应的情感对象: “你根本已经不是个人了,你比蛇还冷血,你比畜生还畜生。” -> “你” “你” “你” 参评单位 34支队伍 包括全国重点高校与科研机构 观点句识别:53组 情感倾向判断:48组 情感对象抽取:22组 观点句识别 任务要求 识别每条微博中各个句子是观点句还是非观点句 评价标准 准确率、召回率、F值 微平均 宏平均 观点句识别 微平均 观点句识别 微平均 观点句识别 宏平均 观点句识别 宏平均 情感倾向性判断 任务要求 判断微博中每条观点句的情感倾向 正面、负面、其他 评价标准 准确率、召回率、F值 微平均 宏平均 情感倾向性判断 微平均 情感倾向性判断 微平均 情感倾向性判断 宏平均 情感倾向性判断 宏平均 情感要素抽取 任务要求 找出微博中每条观点句作者的评价对象 判断针对情感对象的观点极性 评价标准 精确评价 宽松评价 准确率、召回率、F值 情感要素抽取 严格评价 微平均 情感要素抽取 严格评价 微平均 情感要素抽取 严格评价 宏平均 情感要素抽取 严格评价 宏平均 情感要素抽取 宽松评价 微平均 情感要素抽取 宽松评价 微平均 情感要素抽取 宽松评价 宏平均 情感要素抽取 宽松评价 宏平均 小结 微博情感分析相当具有挑战性 不同于产品评论数据,微博数据领域多样,话题广泛,表达自由 本次评测中微博观点句识别、倾向性分析的最好结果F值接近于80%,情感要素抽取的最好结果精确评价F值接近于30%,比预想的结果要好,但仍有较大的提升空间 本次评测的标注数据可作为相关研究的科研数据,已免费公开发布 标注规范和任务设置有待进一步的改进 *

文档评论(0)

shenlan2 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档