网站大量收购独家精品文档,联系QQ:2885784924

Web数据挖掘-观点挖掘.ppt

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Web数据挖掘-观点挖掘

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * Web数据挖掘 * 主观性和极性(倾向) (Yu and Hazivassiloglou, EMNLP-03) 对于主观句子或观点句子识别, 尝试三种方法: 句子相似度 朴素贝叶斯分类 多个朴素贝叶斯分类器 对于观点倾向 (正面, 负面或中立) (又称极性) 分类, 使用与 (Turney, ACL-02)相似的方法, 但 使用更多的种子词 (不是两个) 并基于对数似然比 (log-likelihood ratio, LLR). 对于每个词的分类, 以句子中单词的LLR分数平均值作为度量, 使用阈值确定正面, 负面或中立. Web数据挖掘 * 下一步考虑什么? 在文档和句子层次的情感分类是有用的, 但是 仍然不能发现观点持有者喜欢什么和不喜欢什么. 对于对象的一个负面情感 不能说明观点持有者不喜欢对象的任何方面. 对于对象的一个正面情感 不能说明观点持有者喜欢对象的所有方面. 我们需要深入到特征层次. Web数据挖掘 * 提纲 观点挖掘 – 问题定义 文档层次的情感分类 句子层次的情感分类 基于特征的观点挖掘 比较句子的观点挖掘 总结 Web数据挖掘 * 在深入到特征层次之前 讨论一下观点词或短语 (也称作极性单词, 观点支撑单词, 等等). 比如, 正面的: beautiful, wonderful, good, amazing, 负面的: bad, poor, terrible, cost someone an arm and a leg (idiom). 这些词明显对观点挖掘起作用 编译该列表的三种方法: 人工方法: 可行, 仅是一次性的工作 基于文集的方法 基于词典的方法 重要提示: 一些观点词是上下文独立的 (比如, good). 一些观点词是上下文依赖的 (比如, long). Web数据挖掘 * 基于文集的方法 依赖于大规模文集的句法或共现模式. (Hazivassiloglou and McKeown, ACL-97; Turney, ACL-02; Yu and Hazivassiloglou, EMNLP-03; Kanayama and Nasukawa, EMNLP-06; Ding and Liu SIGIR-07) 能够找到领域 (非上下文!) 依赖的倾向 (正面, 负面, 或中立). (Turney, ACL-02) 和 (Yu and Hazivassiloglou, EMNLP-03) 是相似的. 对于单词或短语赋予观点倾向. (Yu and Hazivassiloglou, EMNLP-03) 与 (Turney, ACL-02) 不同在于: 使用更多的种子词 (非两个) 和使用对象似然比 (非PMI). Web数据挖掘 * 基于文集的方法 (续) 使用连接词的约束(或惯例)识别观点词 (Hazivassiloglou and McKeown, ACL-97; Kanayama and Nasukawa, EMNLP-06; Ding and Liu, 2007). 比如, 合取: 一起使用的形容词通常具有相同的倾向 (Hazivassiloglou and McKeown, ACL-97). 比如, “This car is beautiful and spacious.” (合取) AND, OR, BUT, EITHER-OR, NEITHER-NOR具有相似的约束. 使用下面方法学习 对象线性模型: 判定两个一起使用的形容词具有相同的倾向还是不同的倾向. 聚类: 产生两组词: 正面的和负面的 文集: 1987 Wall Street Journal 文集的2100万单词. Web数据挖掘 * 基于文集的方法 (续) (Kanayama and Nasukawa, EMNLP-06) 使用与 (Hazivassiloglou and McKeown, ACL-97) 类似的方法, 但针对日文单词: 不使用学习方法, 它使用两个标准决定是否将一个单词加入到正面或负面词典中. 使用一个初始的正面的和负面的种子单词库. (Ding and Liu, 2007) 同样使用连接词约束, 但有两个不同点 使用连接词约束对产品特征赋予观点倾向. 同一领域的一个单词可能表示不同的观点倾向. “The battery life is long” (+) and “It takes a long time to focus” (-). 找出领域的观点词是不足够的. 当没有大规模的文集时仍可使用. Web数据挖掘 基

文档评论(0)

xy88118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档