- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于现代汉语语法信息词典的词语情感评价研究
(基于现代汉语语法信息词典的词语情感评价研究
王治敏 朱学锋 俞士汶
北京大学计算语言学研究所 100871 中国
wangzm@pku.edu.cn yusw@pku.edu.cn
摘要
本文将情感评价属性特征纳入现代汉语语法信息词典的词语属性描述体系,基于人民日报基本标注语料库,探讨以定性和定量相结合的方式对汉语词语的情感标注进行研究。根据真实文本实例的统计、归纳,对词典中词语的情感倾向加以描述,然后在词典中形式化。词语的情感评价属性的计算处理对文本过滤、信息抽取、网页评价等有重要的参考价值。
关键词 词语情感评价 语义韵律 搭配规律
Research on Word Emotional Evaluation Based on The Grammatical Knowledge-base of Contemporary Chinese
Wang Zhimin Zhu Xuefeng Yu Shiwen
Institute of Computational Linguistics Peking University 100871 China
wangzm@pku.edu.cn yusw@pku.edu.cn
Abstract
This paper introduces the attributes of emotional evaluation into The Grammatical Knowledge-base of Contemporary Chinese. The word emotions tagging is studied by the approach of using both qualitative and quantitative methodology. Based on the statistics result in People’s Daily tagging corpus, the word emotional trends are described and formulized in our Knowledge-base. Moreover, there are some potential applications of emotions tagging in such related fields as text filtering, information retrieve and webpages’ evaluation.
Keywords : evaluation of word emotions semantic prosody collocation regulation
1引言
随着中文信息处理领域“信息检索、文本过滤、自动文摘、网页评价”等技术的不断发展,研究者开始尝试利用文本中词语所表现出来的情感属性信息来提高实用系统的智能化水平。因此词语表现出来的正面、负面的情感评价属性特征越来越受到学者们的关注。
研究发现,词语蕴涵的情感属性对其句子中共现的词语有很大的限制,其共现词语往往也要求具有统一的情感倾向。例如:以“溃逃”为例,“溃逃”是个贬义词,当它进入句子中与其共现的主语成分大都是含有贬义的坏人。例如:敌军~、匪军~、反动派~、土匪~、坏蛋~、罪犯~、走私犯~。与其共现的状语成分也表示贬义的含义。例如:仓惶~、 狼狈~。也有互为共现的词语表现出不一致的情感倾向。例如:“摆脱”不是贬义词,但通常与表示消极情感倾向的词语共现,如:~困难、~困境、~贫困、~不发达状态、~羞耻和孤独、~危机、~老套套、~束缚、~危险、~制裁、~困扰。虽然后面所带的词语都是表示消极、负面的,但是整个句子却表现一种积极、肯定的情感倾向。由此“摆脱”也带上了积极、正面的色彩。
母语是汉语的中国人也许在毫无察觉的情况下下意识地运用词语的情感色彩,而对外国留学生或计算机则需要学习才会理解。这些规律如果能够从真实语料库中提取,然后对这些规律进行定量的分析,形式化到知识库中,无论对中文信息处理还是对外汉语教学都是很有价值的。
北京大学计算语言学研究所和富士通公司合作开展了汽车领域经济信息评价模型的相关研究,而对于通用领域的词语情感色彩评价研究,目前还没有人利用大规模文本来做这样的事。北京大学计算语言所长期致力于中文信息基础资源的研究和开发。其重要的研究成果《现代汉语语法信息词典》(简称《语法信息词典》)和人民日报标注语料库为词语情感评价研究提供了非常好的基础资源。目前语法信息词典共计收词73000多条。该词典在中文信息处理的自动分词、词语标注、机器翻译、信息提取、信息检索、概念词典建设等方面发挥了较大的作用。俞士汶(2003)
文档评论(0)