网站大量收购独家精品文档,联系QQ:2885784924

基于CRF和句法分析的中文微博情感分析1.PDFVIP

基于CRF和句法分析的中文微博情感分析1.PDF

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于CRF和句法分析的中文微博情感分析1

基于CRF和句法分析的中文微博情感分析1 陈豪,苏波,黄晨,刘功申2 上海交通大学信息内容分析技术国家工程实验室 中国上海 摘要 上海交通大学信息内容技术国家工程实验室参加了 2012 年 CCF 自然语言处理中 文微博情感分析测评。在本次微博情感分析测评中,分别采用两种算法,提交了两组结果。 第一种方法是采用条件随机场算 法 ,对 微博信息进行情感预测。第二种算法是,利用Standford Parser 进行句法分析,然后,根据句子成分之间的修辞关系计算句子的情感。经过主办方的 公开测试,两组算法的结果优异。 1 引言 情感分析[1-2],又称为意见挖掘,是指通过自动分析来获得对于某件事物的褒贬意见, 而随着近几年来微博使用者数量的急剧增加,这种让人方便发表自己态度以及看法的工具在 整个互联网舆情中扮演越来越重要的角色。所以针对微博语料的情感分析变得非常有意义。 微博是一种限制文本长度的工具,大多数人在微博上发的内容一般都是以短文本的形 式。但是其中也存在比较长,句子结构比较完整的句子。短文本就是内容较短的文本(一般 长度不超过 160 字符),通常以新闻标题、微博、手机短信、电子邮件、购物评价等形式存 在。有效的短文本情感倾向性分析技术可以帮助我们在海量信息中更准确地获取自己感兴趣 的信息。 文章[3][4]提出了引入外部知识(如维基百科、搜索引擎返回的信息等)进行特征扩展的 方法,弥补了短文本特征稀疏的缺点,提高了分类性能。但是这种依赖统计的特征引入方法 容易受到噪声干扰,而且增加了算法的复杂度,不符合短文本处理快速高效的要求。文献[5] 提出了采用CRFs对非常短的文本(10 个字符以内的文本)进行字标注的方法进行分类,具有 很好的分类效果,但不适用于一般的短文本。 本文针对这次测评发布语料的特殊性,采用两种方法对测评的微博语料进行测评标注, 针对微博中短文本居多,并且字符数较少、特征稀疏等特点??使用一种 CRFs 的短文本情感 倾向性分析算法,该算法采用文本处理中常用的序列标注算法,保存短文本词之间的联系。 另外针对微博中也存在比较长的句子,所以另外一种算法采用了句法分析的方法,该算法使 用了斯坦佛大学发布的句法分析器 Standford Parser 进行句法分析,通过依赖关系识别对每 一句微博进行情感识别,得出正负结果。 2 利用 CRFs 进行短文本情感倾向性分析的实现 CRFs(Conditional Random Fields, 条件随机场)最早由John Lafferty等人于 2001 年提出 的[6]。目前CRFs在数据分段、序列标注、命名实体识别、中文分词等自然语言处理任务中 都有很好的表现。 CRFs 是基于 HMMs(隐式马尔可夫模型)与 MEMs(最大熵模型)的基础上的改进。CRFs 1 国家自然科学基金项目支持61171173)。 2 通信作者:刘功申(lgshen@sjtu.edu.cn) 使用条件特征,可以对特征进行全局归一化。它不是在给定当前状态的条件下定义下一个状 态的分布,而是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率,从而 避免了 HMMs 的对数据进行不必要的独立性假设。而且 CRFs 很好的解决了 MEMS 的标注 偏执问题。在现实的序列标注任务中,CRFs 性能往往都优于 HMMs 和 MEMs。 使用 CRFs 进行短文本情感倾向性分析的流程如图 1 所示。 图 1. 基于 CRFs 的微博情感分析流

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档