基于主题微博小句内评价对象与评价词分析.docVIP

基于主题微博小句内评价对象与评价词分析.doc

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于主题微博小句内评价对象与评价词分析

基于主题微博小句内评价对象与评价词分析   摘 要:本文针对给定主题的微博小句内评价对象与评价词情况,采取基于规则的方法,利用(CUCsas)倾向性分析系统(CUCsas),以第八届SIGHAN中文信息处理研讨会(SIGHAN-8)提供的评测语料为研究对象进行实验,并得出相关结论。   关键词:评价 微博 主题 规则   一、研究背景   目前,倾向性分析主要集中于词语、句子、语篇三个层面,采用的主要是基于规则与基于机器学习的方法两种。这两种技术在倾向性分析领域各有优劣。基于规则的方法对语言本体研究较为深入,对于指定语料分析效果较好,但普适性相对不高。基于机器学习的方法在COAE、CCF等历届评测中虽占据主流,但效果并不理想。   虽然目前国内对微博的倾向性分析研究较多,但大多集中于整体文本的处理与策略的研究,而对特定微博主题的评价对象与评价词的句内或跨句搭配研究并不十分深入。本文针对这类问题,采取基于规则的方法,利用CUCsas倾向性分析系统,以第八届SIGHAN中文信息处理研讨会(SIGHAN-8)提供的评测语料为研究对象进行实验,并得出相关结论。   二、相关工作   (一)系统及运行流程   倾向性分析系统(CUCsas)由短语和句子倾向性计算规则解释器、评价对象抽取与极性判定规则解释器以及词典、规则库组成。短语和句子倾向性计算规则解释器加载语料、词典、短语规则库。词典除原有分词词典以外,还包括用户词典、情感词典、褒贬值词典、语义词典等多部词典。借助词典对语料进行分词及词性、语义、倾向、倾向值4层标注。词典加载切分结束后,进行短语规则库匹配,根据规则与相关公式对整个句子或整条微博进行倾向值的计算。倾向性计算后,通过评价对象抽取与极性判定规则解释器对评价对象提取规则进行解释,完成评价对象的抽取。   本次评测的任务是基于主题的汉语短信息极性分类(Topic-Based Chinese Message Polarity Classification),语料中主题(topic)已经给定,因此倾向性分析系统(CUCsas)在运行时与以往略有不同,不再提取评价对象,而在语义词典中对给定或与之相关的主题赋予“topic”的标签。   (二)确定评价对象   本次评测提供的训练语料共5000条微博,分为五个话题,分别是:日本马桶、三星S6、雾霾、央行降息、油价。其中非评价句4016条,评价句984条。每个话题各1000条。根据评测给定的五个话题,我们对央行、央妈、油价、雾霾、降息、马桶盖、马桶、马桶圈、马桶盖子、日本马桶、s6、S6、三星、三星S6、三星s6、S6旗舰、S6手机、三星手机、S6手机、S系列、Edge、edge、GalaxyS6Edge、GalaxyS6、S6旗舰等词或短语赋予“topic”的标记。我们暂时认为这些词是评价对象。   (三)选取语料   由于本次评测提供的训练语料中非评价句居多,为保证研究效果,我们从5000条微博中每话题选取100句能确定答案正确的微博,且选取的评价句与非评价句数量基本相当。最终在500句中确定评价句228条,非评价句272条。评价句中褒义有79句,贬义有149句。   微博语料与以前传统语料在形式、内容上都有很大差别。由于微博具有“转发”功能,因此用户除发表自己观点以外还可以转发其他用户内容,因此在形式上就会出现一些特殊标记。如“转发”会有“//”标记。发布或转发新闻时,新闻标题会用“【】”标记。我们认为新闻标题中的评价词不是针对整个微博做出的评价,因此对语料进行预处理时首先屏蔽掉了“【】”中的内容。   (四)相关数据统计   为了研究微博句内评价对象与评价词距离关系,运行如下短语规则进行实验:   */w+#[*/!(w|topic)]+*/(po|ne)+#[*/!(w|topic)]=#3:0   该规则的含义是:两相邻标点间(即小句内)如果有评价词而没有主题“topic”标记,则取消评价词的情感值。这是一条覆盖面非常广的规则,如果将该规则放在所有短语规则最前面,则其他规则必须经过此规则筛选后方可运行,而如果放在后面则此规则毫无意义。这条规则对主题与评价词在小句内共现的情况可以得到较好处理,但对于跨句评价的情况则判断错误。因此该规则只是用来验证研究微博句内评价对象与评价词距离关系,而不能盲目地放进系统作为常驻规则运行。   系统未运行该规则前,短语规则计算出5000条微博的总体准确率为54.42%,500条微博为76.2%;运行该规则后5000条微博总体准确率为71.9%,500条微博为72.4%。系统未运行该规则前评价规则计算出5000条微博的总体准确率为73.82%,500条微博为77%;运行该规则后5000条微博总体准确率为75.

文档评论(0)

130****9768 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档