- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大 连 外 国 语 学 院
学 士 学 位 论 文
中文题目: 情感语料库的构建和分析 英文题目: Construction and Analysis of Emotional Corpus
二级学院: 俄语系 学科、专业: 阿拉伯语专业 研 究 生: 徐慧 指导教师: 曾磊 副教授 2011年11月
情感语料库的构建和分析*
徐琳宏,林鸿飞
(大连理工大学计算机科学与工程系,大连 116024)
摘 要: 本文介绍了情感语料库构建方面的一些经验,讨论了在设计和建设情感语料库中的几个基本问题:制定标注规范、选择标注集、设计标注工具以及标注过程中的质量监控。目前已经标注完成近四万句,一百万字的语料。在完成这些已标注语料的基础上,进一步给出了语料库的情感分布,情感迁移规律等统计数据,分析了情感语料库的特点及应用。它的建成将为文本情感计算提供更加强大的资源支持。
关键词:情感语料库;文本编码规范;一致性检查;情感迁移
中图法分类号: TP391 文献标识符: A
Construction and Analysis of Emotional Corpus
Xu Linhong, Lin Hongfei
(Department of Computer Science and Engineering, Dalian University of Technology, Dalian 116024)
This paper introduced some experiences on constructing emotional corpus, and discussed several basic questions which included the tagging criterion, tagging set, tagging tools and quality monitoring. There were about 40000 sentences in the corpus. Moreover based on these, statistical data about emotional distribution and rules of emotional transference were available, and characters and applications of corpus were analyzed, so emotional corpus provide support for text affective computing.
emotional corpus; Text Coding Initiative; consistency checking; emotional transference
引言
情感计算目前是人工智能领域的研究热点,它的主要目标是使计算机能识别人类的情感,也就是需要建立完善的情感识别模型。然而要使训练的模型准确,容错能力强,就必须有大规模的情感语料支撑。
在国外,语料库的研究很早就已经开始了,也建设完成了许多大规模的语料库,如Brown 语料库等。汉语语料库的建设开始于20世纪80年代,现有的大规模语料有国家现代汉语语料库[1]、台湾中央研究院平衡语料库[2]、中港台汉语语料库[3]、北京大学和富士通公司共同制作的人民日报语料库[4]等。上述大规模语料库的建设在收集语料,制定标注规范和质量监控等方面积累了宝贵的经验。文本情感语料库的建设方面,目前已有的语料库包括Pang 语料库[5],Whissell 语料库[6],Berardinelli 电影评论语料库[7], 产品评论语料库[8]。汉语情感语料库标注方面的资源则较少,清华大学标注了部分旅游景点的描述的情感语料[9],用来辅助语音合成的,但是规模也较小。总之,在国内情感计算刚刚兴起,这方面还没有比较大规模、权威的汉语文本情感语料库。
大部分语料库的建设分为语料的收集和预处理、标注规范的制定,质量监控等几方面,下面的论文将分别阐述语料库建设的各个步骤。第2节概略的介绍了目前选择语料的类型和规模,第3节详细地介绍了情感语料库的标注体系,第4节介绍了语料建设中质量监控的方法,包括正确性和一致性检查的方法。第5节阐述了语料库的一些统计数据及应用,最后,第6节总结语料库的优点和不足,并进一步提出改进的措施。
语料的收集
语料的收集工作,即选择合适的语料,做预处理,为语料的标注提前做好准备。语料选择的方法关系到语料库的覆盖率,所谓覆盖是指语料在各个不同领域的分布或散布,这些不同领域通常是指由时间轴(反映时代特征)、空间轴(反映地域特征)、学科轴(反映知识特征)、风格轴(反映语体特征) 构成的四维模型
原创力文档


文档评论(0)