- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
跨领域情感分析
跨领域情感分析
报告人 :张献涛
zhangxt1989@
2011-12-14
大纲
• 引言
• 跨领域情感分析
• 相关文献和方法
• 观点和思考
引言
• 文本情感分析
– 文本情感分析又称意见挖掘,简单而言,是对
带有情感色彩的主观性文本进行分析、处理、
归纳和推理的过程。
引言
• 给出一段文本
– 这段文本是和某一话题相关的情感表达么?
– 如果是的话,情感又是怎样的呢?
The movie The movie The movie
was fabulous! stars Mr. X was horrible!
引言
• 情感分析的兴起
– Web2.0 蓬勃发展
• “以用户为中心,用户参与”,分享自己的观
点和体验
– 对评价信息的获取
• 当我们需要做决定时观点或意见会很重要我们
通常需要听听其他人的意见.
引言
图1 情感分析研究框架
跨领域的情感分析
• 我们知道
– 情感分析是一项领域性非常强的任务,在一
个领域中训练出来的分类模型或者是规则搭
配,通常不能适用于其他的领域。
– 但是很多领域缺少大规模的分类训练数据
跨领域的情感分析
• 问题
– 人工去标注的话,会耗费巨大代价。
– 希望将一个领域中的训练数据应用于其他的
领域。
跨领域的情感分析
• 难点
– 大多数传统的分类算法都基于统计学习理论。
一个最基本的假设,那就是训练数据和测试
数据必须具有相同的底层特征分布,对于情
感分类而言,就是具有相同的词汇分布。然
而,在很多实际的应用程序中,这个假设却
未必总是成立。
相关文献和方法
• Bo Pang 等提出了对单个领域进行情感
分类,并在电影评论数据集上进行了实
验。 [EMNLP ,2002]
• Aue 等阐述了四种不同的算法来解决跨
领域产品评论情感分类的问题。[RANLP,
2005]
相关文献和方法
• Blitzer 等将结构对应学习(Structural
Correspondence Learning,SCL)引入
跨领域情感分析,SCL是一种应用范围
很广的跨领域文本分析算法,SCL的目
的是将训练集上的特征尽量对应到测试
集中。[ACL,2007]
• Tan 等将SCL引入了中文跨领域情感分
析中。[NAACL HLT 2009]
相关文献和方法
• Tan 尝试着将目标领域的非标注数据与
非目标领域训练出的分类模 型进行
结合 。[ECIR ,2009]
– 基本 的想法是使用非 目标领域 的
训练器对目标领域的数据进行分类,然后
从分类结果中,挑选出分类可信度最高的
N 个文本,加入到训练数据中,然后训练
分类器。这一过程可以进行多次迭代。
相关文献和方法
• Aue 的论文
• 问题
– 每个领域可能都有一部分标注数据,但是数
据量都不大,如何训练一个统一的模型,对
多个领域的产品评论进行情感分类。
• 数据集
– 电影、书籍、pss(产品支持反馈)数据、
Kb(Knowledge Baseweb survey data)数据
相关文献和方法
• 提出的四种算法是分别是:
• 1、使用多个领域的数据混合起来训练一
个分类器;
• 2、如第一种算法训练分类器,但是对于
每一个领域,在训练模型的时候,把分
文档评论(0)