基于情感倾向的书评自动分类.docVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于情感倾向的书评自动分类.doc

基于情感倾向的书评自动分类 张朝阳 商品评论的自动分类在电子商务中有重要的应用价值。首先对图书评论语料库进行未了登录词识别。然后以《知网》情感词为种子词汇,提出了一种基于条件随机场的Bootstrapping情感词挖掘算法,并利用互信息将这些情感词分为褒义和贬义。根据句子中包含正面情感词和负面情感词的数目,同时考虑否定副词和转折连词的影响,将图书评论自动分为好评和差评。对从电商网站上随机爬取的2026条书评做自动分类,平均正确率达81.8%,平均召回率达81.1%,说明了算法的有效性。 情感挖掘 书评分类 条件随机场 AUTOMATIC CLASSIFICATION OF BOOK REVIEWS BASED ON EMOTIONAL TENDENCIES Zhang Chaoyang Automatic classification of product reviews has great application value in e-commerce. Firstly, unknown words were recognized from corpus. With HowNet emotional words as seed vocabulary, a bootstrapping emotional words mining algorithm based on Conditional Random Fields is proposed . Emotional words were divided into praise and poor in the light of mutual information. According to the number of positive and negative emotional words in a sentence, meanwhile taking into account the effects of negative adverbs and conjunctions, book reviews were automatically divided into good and bad basis. Classification experiments on 2026 book reviews crawled from e-commerce site proved the effectiveness of this algorithm with a result of 81.8% accuracy and 81.1% recall. Emotional mining Book review classification Conditional random fields 引 言 商品评论是电子商务信任机制的重要组成部分,目前国内的电商网站都会将评论分为好评与差评以方便用户浏览,然而它们划分的依据仅仅是用户给商品评的星级,这在有些情况下是不准确的,比如京东商城上有一条书评是“新书,物流给力,还没看内容,不能妄评”,根据评论的内容来看用户表达的正面情感要多一些,但由于只评了一颗星所以京东把这条书评划入了“不喜欢”。本文挖掘图书评论中隐含的情感,自动将其分为好评或差评。 按情感倾向对商品评论进行分类时一般可使用情感词作为特征项对文本进行表示,通过相似度比较将文本进行归类。周德友[1]研究了基于HowNet的情感词构建。马渊[2]在计算语义相似度时考虑了义原深度对语义相似度性能的影响,并使用经验权值系数对语义相似度算法进行改造。闻彬等[3]重新定义概念的情感相似度,对程度副词进行精细的划分并赋予不同的权值,同时考虑了否定副词对语义理解的影响。韩忠明等[4]则进一步考虑了转折和递进连词对语义理解的影响。李荣军[5]使用多分类器融合框架检测句子倾向,并引入自适应算法以提高分类精度。文能[6]在对评论进行倾向性分析之前先构建特定商品领域构的本体,详细识别评论的对象。 本文根据图书评论中包含正负面情感词的多少,同时考虑否定副词和转折连词的影响,将评论分为好评和差评。这里的重点工作在于搜集尽量完备的情感词词库,本文提出一种基于条件随机场的Bootstrapping方法对情感词进行识别标记。在此之前我们先对书评语料中的未登录词进行了识别,因为未登录词中也可能包含情感词。 条件随机场 条件随机场(Conditional Random Fields,CRF)最早由Lafferty等人于2001年提出[7],是一种用于标记的统计方法。CRF采用了一阶链式无向图结构,如图1所示,是观察序列,是标签序列,X是全局条件,并且不对X作任何假设。 图1 CRF的链式无向图结构 在给定观察序列X的

文档评论(0)

wuyouwulu + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档