文本的情感倾向分析研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
北京邮电大学硕上学位 句子情感倾向性分析、篇章情感倾向性研究以及海量信息的整体预测等四个研究 层次。接下来将首先介绍在各个层次所取得的研究进展,其次介绍情感倾向性分 析标准语料库的建设和系统评测。 1.4.1词语情感倾向性分析 对词语的情感倾向进行研究是文本情感倾向分析的前提。具有情感倾向的 词语以名词、动词、形容词和副词为主,包括人名、机构名、产品名、事件名等 命名实体。其中,除部分词语的褒贬性(或称为极性,通常分为褒义、贬义和中 性三种)可以通过查词典的方式得到之外,其余词语的极性都无法直接获得。此 外,词语的情感倾向还包括倾向性的强烈程度。例如,“谴责”的强度就远远超 过“批评和“指责,而这种强度很难由词典编撰者用人工的方式进行量化。 另外,词语的极性往往取决于特定的上下文环境,例如,“骄傲在表示“自豪 概念时,是褒义词;而在表示“自满概念时,则是贬义词。 词语情感倾向分析包括对词语极性、强度和上下文模式的分析。其分析结 果甚至可以写入到语义词典中,如北京大学计算语言学研究的基于人民日报基本 标注语料库的真实文本为实例,进行统计归纳得到词语的情感倾向,而后在现代 汉语语法信息词典中实现形式化【lJ。词语情感倾向分析目前主要有以下三种方 法: 1.由已有的电子词典或词语知识库扩展生成情感倾向词典。英文词语情感倾 向信息的获取主要是在WordNet和General Inquirer的基础上进行的文献;而中 文词语情感倾向信息的获取依据主要有HowNet。这种方法的主要思想是,给定 一组已知极性的词语集合作为种子,对于一个情感倾向未知的新词,在电子词典 中找到与该词语义相近并且在种子集合中出现的若干个词,根据这几个种子词的 极性,对未知词的情感倾向进行推断。这种方法对种子词数量的依赖比较明显。 2.无监督机器学习方法。这种方法与第一种方法类似,也是假设已经有一些 已知极性的词语作为种子词,对于一个新词,根据它和种子词的紧密程度对其情 感倾向性进行推断。不同的是,第一种方法的词语紧密程度的度量是以词典信息 为依据判断,而这种方法是根据词语在语料库中的同现情况判断其联系紧密程 度。根据文献【2】的经典方法,假设以“真一、“善、“美’’作为褒义种子词,“假”、 “恶、“丑’’作为贬义种子词,则任意其它词语的语义倾向定义为,将与各褒义 ofContact 种子词的点态互信息量(Point Information,PMI)之和,减去与各贬 义种子词的点态互信息量之和后所得的结果。语义倾向的正负号就可以表示词语 的极性,而绝对值就代表了强度。词语A和B的点态互信息量定义为它们在语 料库中的共现概率与A、B概率之积的比值。这个值越高,就意味着相关性越大。 北京邮电犬学硕士学位论文 有趣的是,点态互信息量计算可通过搜索引擎进行。计算A的概率,可以把A 当作查询送给搜索引擎,那么返回的Hits值(含有A的页面数)和总的索引页 面数的比值,就可以认为是A的概率。要计算A和B的共现概率,只要把A和 B同时送给搜索引擎即可。这种方法同样存在着对种子集恶依赖性比较强的问 题,而且噪声比较大。 3.基于人工标注语料库的学习方法。首先对情感倾向分析语料库进行手工标 注。标注的级别包括文档级标注(即只判断文档的情感倾向性)、短语级标注和 分词级标注。在这些语料的基础上,利用词语的共现关系、搭配关系或者语义关 系,判断词语的情感倾向性。这种方法需要大量的人工标注语料库,典型的工作 如威博(Wiebe)利用词语的搭配模式发现在主观性文本中的倾向性词语及其搭 配关系。 不可不提的是香港城市大学语言咨询科学中心在LIVAG共时语料库上进行 的名人信誉分析研究。他们选择泛华语地区有代表性的中文媒体,对相应的新闻 报道进行深层次的人工标注,并在该语料库上开展中文文章正负两极性自动分类 的研究,通过人物褒贬指数的计算,发布京港台双周名人榜,并用--10--10之., 间的数表示名人在三地报章的信誉度。例如在某段时问内,“陈水扁中国大陆、 中国香港和中国台湾的信誉度分别是--10、--6.2和一4.6。 ,.4.2句子情感倾向性分析 词语情感倾向分析的处理对象是单独的词语或者实体,而句子情感倾向性= 分析的处理对象则是在特定上下文

文档评论(0)

lh2468lh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档