基于流形学习和多视图的情感分类徐戈(08级博士生)xuge@.ppt

基于流形学习和多视图的情感分类徐戈(08级博士生)xuge@.ppt

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于流形学习和多视图的 情感分类 徐戈(08级博士生) xuge@ 导师:王厚峰 教授 报告内容 使用流形学习和多视图结合的方法进行情感分类 流形学习和多视图方法的介绍 在情感分析上的使用(主要是词汇级) 有关读者情感的实验尝试 emotion分类体系的探索 流形学习的例子 流形学习简介 流形(manifold)的定义 流形是高位空间中的内在几何结构,其上或者靠近它的点能够有低维的表示。 呈现高密度的特点。 流形假设(Manifold assumption) 如果两个点 x1; x2 ∈ X 在P(x)蕴含的几何结构上是相近的,那么它们的条件分布P(y|x1)和P(y|x2)也应该是相似的。 Manifold learning的最优化问题 如何表示流形? 我们可以认为P(x)中蕴含着流形结构,然而通常 P(x) 是未知的。 通常借助加权的邻接矩阵来逼近,并假定这个矩阵中蕴含着流形结构。 假设有N个样本点(有标和无标),那么使用一个N*N的矩阵就可以表示任意两个样本点之间的相似度。从而近似地表达这个流形结构。 什么是视图? 一般来说,特征的集合可以看成是一个视图。比如Co-training中文本的内容和链接信息分别作为描述一个页面的视图。即两个特征向量。 有时,给定一个对象我们可能不容易用特征向量来描述(比如单词,句法树等),但可以知道两个对象的相似度。这种对象间的相似度量可以看成是一个视图。 (相当于kernel方法中必然对应某个特征映射,但此时不关心特征映射具体是什么)。 多视图的融合 对于用特征向量表示的视图,最简单的融合方式就是把多个向量合成一个更大的向量。 对于通过用相似关系(通常是矩阵)表示的视图 线性的:若干个矩阵做凸组合。 顺序的:每次使用一个矩阵来进行流形学习,然后其结果作为下一个矩阵的输入再进行流形学习。 …… 目前来看,这种融合是简单的,很多时候都是靠经验或试验。 使用流形学习和多视图结合的方法进行情感分类 选择这种方法的原因 (基本)满足流形假设 语义相同的单词呈现相似的情感 共现的单词呈现相似的情感 …… 大量的可用资源 语义的相似性存在大量的相似度计算方法,主要是基于语义词典(如wordnet,现代汉语词典) 单词的共现等信息则可以从大量的语料中获得。 …… 对象之间关系是依赖特定领域的,我们可以尽可能地在此使用语言学方面的知识。 实验 实验一 Coae2009 Task1 单词情感ranking Task2 句子情感ranking 方法:manifold learning+multiple views 实验二 数据:GI(General Inquiry) 任务:Polarity induction 方法:manifold learning+multiple views 所选择的流形学习方法 词汇级的视图(实验一) 对于单词而言,我们可以将单词在一句话中的共现看成是一种相似信息,出现在同义词词林的同一行也是一种相似信息。基于此,人民日报,同义词词林,现代汉语词典提供3个相似度矩阵。除了此外,我们还可以计算两个单词之间字的重合个数,作为一种相似度量。比如:“高兴”和“高高兴兴”有两个字的重复。 基于对各个相似性重要性的判断,在最终的相似度矩阵中,同义词词林和基于重合字个数的相似度矩阵的权重各占1/3,而人民日报和现代汉语词典的相似度矩阵权重为1/6。 句子级的视图(实验一) 词汇级的视图(实验二) 1. Synonym: If two words appear in the same synset(synonym set) then the weight of the link connecting two words is 1, otherwise 0. 2. Hypernym: If any pair of synsets that two words belong to respectively have the same hypernym then the weight of the link connecting two words is 1, otherwise 0. 3. Jiang similarity: Computing semantic relatedness of words according to the method described by Jiang and Conrath. 4. Lin similarity: Similar with Jiang similarity. 实验一结果(coae task1) 实验一结果( coae task2 ) 实验二结果 实验二结果(续) 需要深入的问题(Large-scale) Sindhwa

文档评论(0)

jingpinwedang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档