- 1
- 0
- 约4.9千字
- 约 9页
- 2017-12-07 发布于福建
- 举报
基于最大熵情感倾向探究
基于最大熵情感倾向探究 【摘 要】随着电子商务的迅速发展,网络上涌现了许多购物网站和产品论坛,这些购物网站和产品论坛为消费者提供了发表评论的平台。越来越多的人在做出消费决策前喜欢到互联网上参考用户和媒体对某产品的评论和报道信息。本文利用最大熵方法对网络产品评论的情感倾向进行识别,通过实验表明最大熵方法是一种非常有前途的文本分类方法。
【关键词】用户评论;文本分类;最大熵模型;情感倾向
【Abstract】With the rapidly expand of electronic commerce, it has emerged many shopping websites and the product forum in the net,these shopping websites and the product forums provide specially the platform for the consumers to publish their reviews.More and more people like to browse the user and the media published some product reviews and the report information before making a decision.Maximum entropy model is used to Sentiment Analysis.In experiments,maximum entropy model is a promising technique for sentiment analysis.
【Key words】Customer reviews;Test classification;Maximum Entropy Model;Sentiment;Analysis
0.引言
随着电子商务的迅速发展,近年来,自有服装品牌、网站销售的购物模式得到了越来越多顾客的认可,如凡客诚品、梦芭莎等,因为是自有品牌,所以这些购物网站的商品质量相对统一。越来越多的人在做出消费决策前喜欢到互联网上参考用户和媒体对某产品的评论和报道信息。通过互联网上的产品评论,消费者可以了解其他用户对产品的态度倾向,从而做出更好的购买决策,对于销售商和生产商,可以及时获得用户对其产品和服务的反馈,了解用户对自己和对竞争对手的评价,从而改进产品,改善服务,获得竞争优势。因此,作为非结构化信息挖掘的一个新兴领域,产品评论的情感倾向研究引起了人们极大的兴趣。[1]
1.最大熵模型
最大嫡模型是用来进行概率估计的:假设是某个事件,b是事件a 发生的环境(或称上下文),我们想知道a和b的联合概率,记为p(a,b) 。更一般地,设所有可能发生的事件组成的集合为A,所有环境组成的集合为B,我们想知道,对于任意给定的a∈A b∈B,概率p(a,b)是多少?
我们把这个问题放到自然语言处理的领域来讨论,对于文本分类问题,一个文档分到某个类别可以看成一个事件,文档中出现的词可以看成这个事件发生的环境,我们想知道包含词b的文档属于某一类 a的概率。很容易想到的方法是通过训练语料进行统计。给定一个训练集,定义A=(a1,a2,···,am)是文档所属类别集,B=(b1,b2,···,bn)是文档的特征词集,num(ai,bj)为训练集中二元组(ai,bj)出现的次数,那么我们可以使用如下公式进行概率估计:
(ai,bj)= (1)
这个方法有个很大的问题,即“稀疏事件”(sparse evidence)问题,即便是很大的训练文本,很多二元组仍然没有出现,武断地认为它的概率为0,显然是不可取的。最大熵模型是这样来解决稀疏事件问题的,它使未知事件的概率分布总是尽可能均匀,即倾向于得到最大嫡[2]。例如一个军事、政治和科技的3类文本分类问题,我们得知,出现“飞机”这个词的80%的文档属子军事类别,对于“飞机”这个词在其他两类中的分布未知.根据最大嫡原则,如果给定一个包含“飞机”这个词文档,那么认为文档以0.8的概率属于军事类别,分别以0.1的概率属子其他两类;如果文档中不包含“飞机”这个词,那么认为文档分别以相同的1/3的概率属于每一个类.即在符合已知约束的情况下,使未知事件的分布尽可能均匀。
具体来说,根据Shannon[2]的定义,嫡的计算公式如下:
H(P)=-p(x)log2p(x) (2)
那么,求解满足最大嫡原则的概率分布的公式如下:
p*=arg maxH(P) (3)
如果没有其他任何先验知识,根据滴的性质,式(3)得到最大值的条件是:
p(a|
您可能关注的文档
最近下载
- 船舶驾驶员实用英语口语.doc VIP
- 新能源汽车充电系统原理与检修 课件 第4章 交流慢充系统原理与检修.pptx VIP
- 隋朝的统一与灭亡部编版七年级历史下册.pptx VIP
- 人教版七年级历史下册第一课《隋朝的统一与灭亡》课件.pptx VIP
- VRAR技术在旅游体验中的沉浸感优化研究.docx VIP
- 新能源汽车控制系统及检修 课件 3-比亚迪秦EV新能源汽车动力电池管理系统.pdf
- 物理教学设计的比较研究——以“机械能守恒定律”教学为例.docx VIP
- 触觉记忆的叙事机制.docx VIP
- 儿童过敏性紫癜诊疗指南.docx VIP
- 知识图谱在通信知识库构建中的应用与智能辅助优化研究教学研究课题报告.docx
原创力文档

文档评论(0)