一篇用LDA做情感分析文章.docx

下载文档 降价啦

12
0
约1.82千字
约 2页
2017-06-04 发布于湖北
举报
版权申诉
保障服务

一篇用LDA做情感分析文章.docx

1、本文档共2页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一篇用LDA做的情感分析的文章：Holistic Sentiment Analysis Across Languages:Multilingual Supervised Latent Dirichlet Allocation本文提出一个概率生成模型MLSLDA，借助其可以通过训练、收集某一种语言的数据来达到模型具有捕获其他语言特性的功能。MLSLDA完成上述功能主要通过融合文本的两个特性：（1）如何将多语言概念聚成在主题层面上一致的话题；（2）how topics associatedwith text connect to an observed regressionvariable (such as ratings on a sentimentscale)文中concepts → general hierarchical framework，可灵活的表达语义本体（semantic ontologies），词典，聚类约束以及一种退化情形下的一般话题模型。之前的情感分析只限于单语言的（一般为英语），然而事实上没有一种单语言可以涵盖大部分互联网上的内容，因此多语言模型是非常必要的。为解决上述问题，最初是通过知识迁移——resource-rich language→resource-less language（Banea et al., 2008），或者是忽略将不同语言翻译成英语之后的差异性（Denecke, 2008）。这些方法的缺点是：都仅限于以英语为中心的视角上，损失信息。MLSLDA模型通过对“话题”的学习为多语言情感提供了一个一致性视角。只需要对可用数据源进行很少的假设，不需要parallel copora和机器翻译。1. Predictions from Multilingual TopicsMLSLDA输入：未标记的文档数据集。MLSLDA输出：一系列“话题”，每篇文档上标记的话题（都以概率的形式表示，话题-单词概率分布矩阵以及文档-话题概率分布矩阵）。1.1 捕获语义相关性单语言模型中，话题通常服从一个狄利克雷分布。原因：（1）使得稀疏先验的指定比较容易（2）推理比较容易，因为狄利克雷分布是多项分布的共轭分布。但是狄利克雷分布对于包含多语言的词汇来说是不可行的。所建模型应该满足每种语言上的话题的一致性。狄利克雷分布不能将不同元素之间的相互关系包含进来。一种解决办法：用多元正态分布！进而产生相关性多项分布。但是采用这种方法的模型不是在共轭条件下完成的推理过程。本文：tree-based extensions of the Dirichlet distribution. Key idea：假设所有语言的词汇通过一个用树表达出来的共享语义结构组织起来。通过WordNet，当做语义传播的纽带。WordNet的语义结构是语言独立的，因为其不同的“近义词集合”可以通过其他的语言以相同的结构表达出来。（比如：中文也可以表示a “dog” is a “canine” is an “animal” isa “living thing,”）。这里我查了一下WordNet中的hyponomy relationship可以理解为上/下位关系，或者说是蕴含关系，也就是前面说的“is a”关系。根据WordNet的结构，可以描述多语言词库上生成一个分布的过程，使其只关注不同单词之间的语义相关性，忽略单词属于哪门语言。对每个近义词集合h，创建一个多语言单词分布，如下：为简洁，以上生成过程记做，即multilingual Dirichlethierarchy。每个被观察到的标记都可以看成是一个访问过的近义词集合λ的序列的最终结果。因为是个树，可以把每个被观察到（终止节点）之前访问过的节点看成是一条路径：（1）对树的每个节点，这个路径终止于此节点的概率是，否则其继续以的概率转移至其某个孩子近义词集合。（2）如果路径继续（就是没有终止，继续转移），则其会以的概率访问子节点j。（3）如果路径终止于某近义词集合节点，则会以的概率生成单词k。综上，一条语言为l，访问过近义词集合r并结束于近义词集合h的路径产生出一个单词的概率可以记做：本文模型MLSLDA是对SLDA的扩展（多语言上的全局一致性，通过使用bridging方法达到）。模型：（1）会生成多语言的文档，（2）为每篇文档进行一个实数打分。