- 1、本文档共54页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Web数据挖掘-观点挖掘
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * Web数据挖掘 * 主观性和极性(倾向) (Yu and Hazivassiloglou, EMNLP-03) 对于主观句子或观点句子识别, 尝试三种方法: 句子相似度 朴素贝叶斯分类 多个朴素贝叶斯分类器 对于观点倾向 (正面, 负面或中立) (又称极性) 分类, 使用与 (Turney, ACL-02)相似的方法, 但 使用更多的种子词 (不是两个) 并基于对数似然比 (log-likelihood ratio, LLR). 对于每个词的分类, 以句子中单词的LLR分数平均值作为度量, 使用阈值确定正面, 负面或中立. Web数据挖掘 * 下一步考虑什么? 在文档和句子层次的情感分类是有用的, 但是 仍然不能发现观点持有者喜欢什么和不喜欢什么. 对于对象的一个负面情感 不能说明观点持有者不喜欢对象的任何方面. 对于对象的一个正面情感 不能说明观点持有者喜欢对象的所有方面. 我们需要深入到特征层次. Web数据挖掘 * 提纲 观点挖掘 – 问题定义 文档层次的情感分类 句子层次的情感分类 基于特征的观点挖掘 比较句子的观点挖掘 总结 Web数据挖掘 * 在深入到特征层次之前 讨论一下观点词或短语 (也称作极性单词, 观点支撑单词, 等等). 比如, 正面的: beautiful, wonderful, good, amazing, 负面的: bad, poor, terrible, cost someone an arm and a leg (idiom). 这些词明显对观点挖掘起作用 编译该列表的三种方法: 人工方法: 可行, 仅是一次性的工作 基于文集的方法 基于词典的方法 重要提示: 一些观点词是上下文独立的 (比如, good). 一些观点词是上下文依赖的 (比如, long). Web数据挖掘 * 基于文集的方法 依赖于大规模文集的句法或共现模式. (Hazivassiloglou and McKeown, ACL-97; Turney, ACL-02; Yu and Hazivassiloglou, EMNLP-03; Kanayama and Nasukawa, EMNLP-06; Ding and Liu SIGIR-07) 能够找到领域 (非上下文!) 依赖的倾向 (正面, 负面, 或中立). (Turney, ACL-02) 和 (Yu and Hazivassiloglou, EMNLP-03) 是相似的. 对于单词或短语赋予观点倾向. (Yu and Hazivassiloglou, EMNLP-03) 与 (Turney, ACL-02) 不同在于: 使用更多的种子词 (非两个) 和使用对象似然比 (非PMI). Web数据挖掘 * 基于文集的方法 (续) 使用连接词的约束(或惯例)识别观点词 (Hazivassiloglou and McKeown, ACL-97; Kanayama and Nasukawa, EMNLP-06; Ding and Liu, 2007). 比如, 合取: 一起使用的形容词通常具有相同的倾向 (Hazivassiloglou and McKeown, ACL-97). 比如, “This car is beautiful and spacious.” (合取) AND, OR, BUT, EITHER-OR, NEITHER-NOR具有相似的约束. 使用下面方法学习 对象线性模型: 判定两个一起使用的形容词具有相同的倾向还是不同的倾向. 聚类: 产生两组词: 正面的和负面的 文集: 1987 Wall Street Journal 文集的2100万单词. Web数据挖掘 * 基于文集的方法 (续) (Kanayama and Nasukawa, EMNLP-06) 使用与 (Hazivassiloglou and McKeown, ACL-97) 类似的方法, 但针对日文单词: 不使用学习方法, 它使用两个标准决定是否将一个单词加入到正面或负面词典中. 使用一个初始的正面的和负面的种子单词库. (Ding and Liu, 2007) 同样使用连接词约束, 但有两个不同点 使用连接词约束对产品特征赋予观点倾向. 同一领域的一个单词可能表示不同的观点倾向. “The battery life is long” (+) and “It takes a long time to focus” (-). 找出领域的观点词是不足够的. 当没有大规模的文集时仍可使用. Web数据挖掘 基
您可能关注的文档
- 数据结构作业与实验1.ppt
- 南仓小学2011-2012学年度第一学期三年级英语试卷分析.doc
- 2011 年江苏VB考试要求及归纳.doc
- 卫生院院长工作述职.doc
- 电场磁场综合练习选择题.doc
- (夏俊美)方程复习.ppt
- 参数切换容易忽略的问题.doc
- 经济学前100.docx
- 第六章(堆).ppt
- 大学 电力系统自动装置 你懂得.doc
- 全球摄影器材行业2025年数字摄影后期处理技术报告.docx
- 工业互联网数据加密算法效能评估报告:2025年技术标准与创新实践.docx
- 全球旅游景区智慧化建设2025年智慧景区智慧旅游产业升级研究报告.docx
- 特色小镇产业培育资金申请政策导向与产业发展趋势报告.docx
- 2025年区块链技术驱动下数字货币对传统金融体系冲击分析报告.docx
- 全球旅游景区智慧化发展报告:2025年旅游产业智能化升级策略.docx
- 全球咖啡产业链市场产业链协同效应分析报告.docx
- 2025年绿色环保建材研发中心建设项目规划与发展策略报告.docx
- 2025年信托行业转型升级与业务模式创新研究报告.docx
- 全球旅游景区智慧化建设与可持续发展战略研究报告.docx
文档评论(0)