基于最大熵情感倾向研究.docVIP

下载本文档

4
0
约4.9千字
约 10页
2018-06-23 发布于福建
举报
版权申诉

基于最大熵情感倾向研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于最大熵情感倾向研究

基于最大熵情感倾向研究　　【摘要】随着电子商务的迅速发展，网络上涌现了许多购物网站和产品论坛，这些购物网站和产品论坛为消费者提供了发表评论的平台。越来越多的人在做出消费决策前喜欢到互联网上参考用户和媒体对某产品的评论和报道信息。本文利用最大熵方法对网络产品评论的情感倾向进行识别，通过实验表明最大熵方法是一种非常有前途的文本分类方法。　　【关键词】用户评论；文本分类；最大熵模型；情感倾向　　【Abstract】With the rapidly expand of electronic commerce， it has emerged many shopping websites and the product forum in the net，these shopping websites and the product forums provide specially the platform for the consumers to publish their reviews.More and more people like to browse the user and the media published some product reviews and the report information before making a decision.Maximum entropy model is used to Sentiment Analysis.In experiments，maximum entropy model is a promising technique for sentiment analysis. 　　【Key words】Customer reviews；Test classification；Maximum Entropy Model；Sentiment；Analysis 　　0.引言　　随着电子商务的迅速发展，近年来，自有服装品牌、网站销售的购物模式得到了越来越多顾客的认可，如凡客诚品、梦芭莎等，因为是自有品牌，所以这些购物网站的商品质量相对统一。越来越多的人在做出消费决策前喜欢到互联网上参考用户和媒体对某产品的评论和报道信息。通过互联网上的产品评论，消费者可以了解其他用户对产品的态度倾向，从而做出更好的购买决策，对于销售商和生产商，可以及时获得用户对其产品和服务的反馈，了解用户对自己和对竞争对手的评价，从而改进产品，改善服务，获得竞争优势。因此，作为非结构化信息挖掘的一个新兴领域，产品评论的情感倾向研究引起了人们极大的兴趣。[1] 　　1.最大熵模型　　最大嫡模型是用来进行概率估计的：假设是某个事件，b是事件a 发生的环境（或称上下文），我们想知道a和b的联合概率，记为p（a，b）。更一般地，设所有可能发生的事件组成的集合为A，所有环境组成的集合为B，我们想知道，对于任意给定的a∈A b∈B，概率p（a，b）是多少？　　我们把这个问题放到自然语言处理的领域来讨论，对于文本分类问题，一个文档分到某个类别可以看成一个事件，文档中出现的词可以看成这个事件发生的环境，我们想知道包含词b的文档属于某一类 a的概率。很容易想到的方法是通过训练语料进行统计。给定一个训练集，定义A=（a1，a2，···，am）是文档所属类别集，B=（b1，b2，···，bn）是文档的特征词集，num（ai，bj）为训练集中二元组（ai，bj）出现的次数，那么我们可以使用如下公式进行概率估计：　　（ai，bj）= （1）　　这个方法有个很大的问题，即“稀疏事件”（sparse evidence）问题，即便是很大的训练文本，很多二元组仍然没有出现，武断地认为它的概率为0，显然是不可取的。最大熵模型是这样来解决稀疏事件问题的，它使未知事件的概率分布总是尽可能均匀，即倾向于得到最大嫡[2]。例如一个军事、政治和科技的3类文本分类问题，我们得知，出现“飞机”这个词的80%的文档属子军事类别，对于“飞机”这个词在其他两类中的分布未知.根据最大嫡原则，如果给定一个包含“飞机”这个词文档，那么认为文档以0.8的概率属于军事类别，分别以0.1的概率属子其他两类；如果文档中不包含“飞机”这个词，那么认为文档分别以相同的1/3的概率属于每一个类.即在符合已知约束的情况下，使未知事件的分布尽可能均匀。　　具体来说，根据Shannon[2]的定义，嫡的计算公式如下：　　H（P）=-p（x）log2p（x）（2）　　那么，求解满足最大嫡原则的概率分布的公式如下：　　p*=arg maxH（P）（3）　　如果没有其他任何先验知识，根据滴的性质，式（3）得到最大值的条件是：　　p（