基于最大熵情感倾向探究.docVIP

  • 1
  • 0
  • 约4.9千字
  • 约 9页
  • 2017-12-07 发布于福建
  • 举报
基于最大熵情感倾向探究

基于最大熵情感倾向探究   【摘 要】随着电子商务的迅速发展,网络上涌现了许多购物网站和产品论坛,这些购物网站和产品论坛为消费者提供了发表评论的平台。越来越多的人在做出消费决策前喜欢到互联网上参考用户和媒体对某产品的评论和报道信息。本文利用最大熵方法对网络产品评论的情感倾向进行识别,通过实验表明最大熵方法是一种非常有前途的文本分类方法。 【关键词】用户评论;文本分类;最大熵模型;情感倾向 【Abstract】With the rapidly expand of electronic commerce, it has emerged many shopping websites and the product forum in the net,these shopping websites and the product forums provide specially the platform for the consumers to publish their reviews.More and more people like to browse the user and the media published some product reviews and the report information before making a decision.Maximum entropy model is used to Sentiment Analysis.In experiments,maximum entropy model is a promising technique for sentiment analysis. 【Key words】Customer reviews;Test classification;Maximum Entropy Model;Sentiment;Analysis 0.引言 随着电子商务的迅速发展,近年来,自有服装品牌、网站销售的购物模式得到了越来越多顾客的认可,如凡客诚品、梦芭莎等,因为是自有品牌,所以这些购物网站的商品质量相对统一。越来越多的人在做出消费决策前喜欢到互联网上参考用户和媒体对某产品的评论和报道信息。通过互联网上的产品评论,消费者可以了解其他用户对产品的态度倾向,从而做出更好的购买决策,对于销售商和生产商,可以及时获得用户对其产品和服务的反馈,了解用户对自己和对竞争对手的评价,从而改进产品,改善服务,获得竞争优势。因此,作为非结构化信息挖掘的一个新兴领域,产品评论的情感倾向研究引起了人们极大的兴趣。[1] 1.最大熵模型 最大嫡模型是用来进行概率估计的:假设是某个事件,b是事件a 发生的环境(或称上下文),我们想知道a和b的联合概率,记为p(a,b) 。更一般地,设所有可能发生的事件组成的集合为A,所有环境组成的集合为B,我们想知道,对于任意给定的a∈A b∈B,概率p(a,b)是多少? 我们把这个问题放到自然语言处理的领域来讨论,对于文本分类问题,一个文档分到某个类别可以看成一个事件,文档中出现的词可以看成这个事件发生的环境,我们想知道包含词b的文档属于某一类 a的概率。很容易想到的方法是通过训练语料进行统计。给定一个训练集,定义A=(a1,a2,···,am)是文档所属类别集,B=(b1,b2,···,bn)是文档的特征词集,num(ai,bj)为训练集中二元组(ai,bj)出现的次数,那么我们可以使用如下公式进行概率估计: (ai,bj)= (1) 这个方法有个很大的问题,即“稀疏事件”(sparse evidence)问题,即便是很大的训练文本,很多二元组仍然没有出现,武断地认为它的概率为0,显然是不可取的。最大熵模型是这样来解决稀疏事件问题的,它使未知事件的概率分布总是尽可能均匀,即倾向于得到最大嫡[2]。例如一个军事、政治和科技的3类文本分类问题,我们得知,出现“飞机”这个词的80%的文档属子军事类别,对于“飞机”这个词在其他两类中的分布未知.根据最大嫡原则,如果给定一个包含“飞机”这个词文档,那么认为文档以0.8的概率属于军事类别,分别以0.1的概率属子其他两类;如果文档中不包含“飞机”这个词,那么认为文档分别以相同的1/3的概率属于每一个类.即在符合已知约束的情况下,使未知事件的分布尽可能均匀。 具体来说,根据Shannon[2]的定义,嫡的计算公式如下: H(P)=-p(x)log2p(x) (2) 那么,求解满足最大嫡原则的概率分布的公式如下: p*=arg maxH(P) (3) 如果没有其他任何先验知识,根据滴的性质,式(3)得到最大值的条件是: p(a|

文档评论(0)

1亿VIP精品文档

相关文档