Web数据挖掘-观点挖掘.ppt

下载文档 降价啦

18
0
约1.06万字
约 54页
2018-02-15 发布于河南
举报
版权申诉
保障服务

Web数据挖掘-观点挖掘.ppt

1、本文档共54页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Web数据挖掘-观点挖掘

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * Web数据挖掘 * 主观性和极性(倾向) (Yu and Hazivassiloglou, EMNLP-03) 对于主观句子或观点句子识别, 尝试三种方法: 句子相似度朴素贝叶斯分类多个朴素贝叶斯分类器对于观点倾向 (正面, 负面或中立) (又称极性) 分类, 使用与 (Turney, ACL-02)相似的方法, 但使用更多的种子词 (不是两个) 并基于对数似然比 (log-likelihood ratio, LLR). 对于每个词的分类, 以句子中单词的LLR分数平均值作为度量, 使用阈值确定正面, 负面或中立. Web数据挖掘 * 下一步考虑什么? 在文档和句子层次的情感分类是有用的, 但是仍然不能发现观点持有者喜欢什么和不喜欢什么. 对于对象的一个负面情感不能说明观点持有者不喜欢对象的任何方面. 对于对象的一个正面情感不能说明观点持有者喜欢对象的所有方面. 我们需要深入到特征层次. Web数据挖掘 * 提纲观点挖掘 – 问题定义文档层次的情感分类句子层次的情感分类基于特征的观点挖掘比较句子的观点挖掘总结 Web数据挖掘 * 在深入到特征层次之前讨论一下观点词或短语 (也称作极性单词, 观点支撑单词, 等等). 比如, 正面的: beautiful, wonderful, good, amazing, 负面的: bad, poor, terrible, cost someone an arm and a leg (idiom). 这些词明显对观点挖掘起作用编译该列表的三种方法: 人工方法: 可行, 仅是一次性的工作基于文集的方法基于词典的方法重要提示: 一些观点词是上下文独立的 (比如, good). 一些观点词是上下文依赖的 (比如, long). Web数据挖掘 * 基于文集的方法依赖于大规模文集的句法或共现模式. (Hazivassiloglou and McKeown, ACL-97; Turney, ACL-02; Yu and Hazivassiloglou, EMNLP-03; Kanayama and Nasukawa, EMNLP-06; Ding and Liu SIGIR-07) 能够找到领域 (非上下文!) 依赖的倾向 (正面, 负面, 或中立). (Turney, ACL-02) 和 (Yu and Hazivassiloglou, EMNLP-03) 是相似的. 对于单词或短语赋予观点倾向. (Yu and Hazivassiloglou, EMNLP-03) 与 (Turney, ACL-02) 不同在于: 使用更多的种子词 (非两个) 和使用对象似然比 (非PMI). Web数据挖掘 * 基于文集的方法 (续) 使用连接词的约束(或惯例)识别观点词 (Hazivassiloglou and McKeown, ACL-97; Kanayama and Nasukawa, EMNLP-06; Ding and Liu, 2007). 比如, 合取: 一起使用的形容词通常具有相同的倾向 (Hazivassiloglou and McKeown, ACL-97). 比如, “This car is beautiful and spacious.” (合取) AND, OR, BUT, EITHER-OR, NEITHER-NOR具有相似的约束. 使用下面方法学习对象线性模型: 判定两个一起使用的形容词具有相同的倾向还是不同的倾向. 聚类: 产生两组词: 正面的和负面的文集: 1987 Wall Street Journal 文集的2100万单词. Web数据挖掘 * 基于文集的方法 (续) (Kanayama and Nasukawa, EMNLP-06) 使用与 (Hazivassiloglou and McKeown, ACL-97) 类似的方法, 但针对日文单词: 不使用学习方法, 它使用两个标准决定是否将一个单词加入到正面或负面词典中. 使用一个初始的正面的和负面的种子单词库. (Ding and Liu, 2007) 同样使用连接词约束, 但有两个不同点使用连接词约束对产品特征赋予观点倾向. 同一领域的一个单词可能表示不同的观点倾向. “The battery life is long” (+) and “It takes a long time to focus” (-). 找出领域的观点词是不足够的. 当没有大规模的文集时仍可使用. Web数据挖掘基