中文情感分析综述.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文情感分析综述.doc

中文情感分析综述 摘要:目前国内存在各种类型的舆论平台,以资讯类舆论平台为主,咨询类平台的受众通常都会对咨询进行评论,分析提取评论中主题内容,对评论信息进行分类分析,了解当前网民的核心诉求具有非常重要的意义。主题模型作为主题发现中重要的模型手段,对主题的定位具有明显的效果。 关键词:网络评论;主题发现;网民导向 中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)16-0133-02 Abstract: The various types of public opinion platform, based on information platform of public opinion and consulting platform audience usually comments on consultation, analysis to extract thematic content review, to review the information for classification analysis, to understand the core demands of the current Internet users has very important significance. Topic model, as an important model in the subject discovery, has obvious effect on the orientation of the subject. Key words: online review; topic discovery; public opinion 情感分析是目前文本挖掘中比较主流的应用领域,情感分析涵盖的内容很多,诸如电商平台中评论信息分析、社交媒体平台中用户的评论导向等都属于情感分析的范畴。情感分析能够发现用户评论数据中极性,对于分析用户的思维导向具有很好的指导价值。 情感分析能够辅助电商和社交等平台更好地提升用户体验,以电商平台(淘宝)为例,淘宝的用户量级和商品量级都非常巨大,通过提取分析用户评论中情感特点,可以动态的对淘宝店铺和淘宝商品的排序进行调整,最大适度的提升用户的满意度。情感分析对社交平台的辅助性也是巨大的,很多热点社会时政信息都会在社交平台上暴露出来,通过对当前热点事件下网民的跟帖信息分析,能够发现网民对当前热点事件的趋势,一方面网民遍布全国各地,网民跟帖信息能够在一定程度上帮助验证事件的真实度。 1 情感分析流程 情感分析包括很多的内容,例如需要对用户评论信息进行分词,分词之后需要对各个分词结果的词语进行词性分析,词性分析的结果是希望通过对单个词语的词性分析来分析整个句子的极性,需要通过机器学习的方法对每条评论信息进行极性标注,极性标注的方式可能存在多个类别而非简单的积极和消极两种情况。需要对用户产生的新评论信息进行极性分类等。 1.1 评论分词 用户评论信息以句子和短文本为主,情感分析很重要的一步是依赖情感词典,通过将评论信息中词语与情感词典进行映射,发现可以匹配的结果,以此来界定词语的极性。因此对评论信息进行情感分析的首要工作是分词,分词的好坏决定了最终情感分析的结果。分词可以采用多种算法,最简单的方式是词典匹配的方式,即通过能够匹配词典的词语作为分词单位,分词时采用最大匹配单位为准,还有诸如最大熵分词算法,既保证当前规则的分词切分方式能够最大化的保留句子的主要信息。值得一提的是,目前应用最为广泛的应该是隐马尔可夫模型的分词算法,隐马尔可夫模型将句子切分后的各个单元概率最大化,这样做的目的是保证切词后的划分是基于统计意义下最可能的切分,分词系统结构如图1所示。 1.2句法分析 句法分析是分词之后的步骤,分词的目的是为了分析用户评论中各个词语的极性,分析极性的目的是为了对整个评论语句进行分析。句法分析涉及多个细节,需要对句子的组成成分进行分析,常用的分析方法是隐马尔可夫模型,隐马尔可夫模型通过对句子拆分后的各个词语进行动态组合,找出最佳的句子匹配成分,对句子成分的分析是为了能够更加准确地分析句子。 1.3句子主题识别 句子主题识别在电商平台应用尤为明显,用户评论的句子千差万别,需要在如此海量的评论数据中找到评论中共通的信息,以淘宝为例,淘宝评论分为有限的类别,然后评论数据量确实非常巨大,需要从海量的评论数据中识别出有限的类别。依赖于前两个流程的帮助,评论分词和句子分析,可以试图提取句子中共现次数较多的词语,并评估这些词语在整个评论数据中占据的信息量大小。 1.4评论分类 对海量评论数据的处理之后,如何对产生的新评论数据进行分析,即需要对新评论数据进行分类,分类的依据是之前通过历史数据学习

文档评论(0)

guan_son + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档