基于Web的比较式挖掘研究-北京大学计算机科学技术研究所.PPTVIP

  • 2
  • 0
  • 约1.58千字
  • 约 12页
  • 2017-12-22 发布于天津
  • 举报

基于Web的比较式挖掘研究-北京大学计算机科学技术研究所.PPT

基于Web的比较式挖掘研究-北京大学计算机科学技术研究所

我的报告到此结束,谢谢各位。 * 北京大学计算机科学技术研究所 北京大学计算机科学技术研究所 万小军 北京大学计算机科学技术研究所 评测背景 情感分类随着网络评论的海量增长受到人们越来越多的重视。 情感分类系统通常依赖于标注语料并结合分类算法来实现。然而,情感标注语料的分布在不同语言下是极不均衡的。 因此在当前语言的标注语料缺乏时,利用其他语言的资源来实现情感分类已经成为了一个热门的研究课题。 * 评测任务介绍 本任务要求参赛队伍在仅利用组织方提供的资源的前提下,对测试集内的每条中文评论进行倾向性分类(正面和负面)。 评测资源包括: 英文标注数据 少量中文标注数据 英文情感词典 中文未标注语料 * 评测数据 英文标注数据 英文标注数据为 A 的用户评论,共包含 3 个不同领域:DVD,书籍,音乐。每个领域内有 2000 条正面评价和 2000 条负面评价。 英文情感词典 提供 MPQA 情感词典(Multi-Perspective Question Answering Subjectivity Lexicon),共包含 2789 个正向词和 6079 个负向词。 * 评测数据 中文标注数据(验证数据) 提供包含 DVD,书籍,音乐三个领域的少量中文标注数据,正负例各 20条。 中文未标注数据 提供包含 DVD,书籍,音乐三个领域的大量中文未标注数据,正负例不均衡。 *

文档评论(0)

1亿VIP精品文档

相关文档