- 21
- 0
- 约2.03万字
- 约 9页
- 2017-10-02 发布于天津
- 举报
机器学习与语义规则融合的微博情感分类方法.PDF
网络出版时间:2016-11-30 10:52:07
网络出版地址:/kcms/detail/11.2442.N1052.008.html
姜杰等 机器学习与语义规则融合的微博情感分类方法
1 机器学习与规则融合的情感分类 知识, 也就是该词语在大多数语境下的情感极性及
其强度等信息。词典情感词的得分则是对词语情感
方法
倾向性程度相对合理的量化。
本文构建了一个机器学习与规则方法融合的情 1.1.1 Rule-Method-1
感分类系统。在测试语料上直接运行本文提出的规 经典的基于词典的情感分析方法通常基于下式
则情感分析算法得到规则方法结果 1。对于机器学 计算情感倾向性 (semantic ori entation), 即对情感词
习方法, 将 N-GRAM 、表情符号(emoticon) 、标点 得分进行累加, 以得到文本片段的整体情感倾向值:
符号 (punctuation)和语义特征(semantic)4 种基本特 M
SO score(term ) , (1)
征串联形成基本特征模板 FS-1; 使用规则情感分析 k 1 k
算法从训练语料中抽取重要情感信息 , 经过转化与 其中 , M 表示样本词数 , score(ter m k ) 表示第 k 个
扩展形成规则特征 , 嵌入到基本特征模板中 , 形成 词在情感词典中的情感极性值。本文将这种规则方
融合特征模板 FS-2 。基于这两个特征模板, 使用 3 法称为 Rule-Method-1, 这种方式忽略了导致情感
种分类算法 (朴素贝叶斯、逻辑斯蒂回归、支持向 变化的特殊语言结构, 如否定、转折、情感强化和
量机 )训练模型并将它们的结果集成 , 通过交叉验 削弱等。
证找到最佳参数 , 分别得到基本模型 Mod-1 和融合 1.1.2 Rule-Method-2
模型 Mod-2 。测试语料同样根据不同的特征集构建 文献 [2]在式 (1)基础上 , 考虑了导致情感变化
测试样本, 并使用对应的模型分类 , 得到结果 2 和 的特殊语言结构, 提出一种有效的规则化英文情感
结果 3 。实验结果表明, 机器学习方法的结果好于 分析方法。文献 [2]面向英文而且是产品评论文本,
规则方法 , 而基于融合特征集的分类模型性能优于 本文针对中文微博文本, 提出情感计算规则化方法,
基本特征集的分类模型。图 1 为系统框架图。 称为 Rule-Method-2 。
1.1 微博情感分类规则方法 首先 , 收集该方法所依赖的相关情感词典, 词
基于词典的规则方法是一种直观有效的情感分 典来源见表 1。然后根据式(2)计算微博的情感倾向
析方法。情感词典提供了一个词语在情感上的先验 性 SO 。对微博字符串进行中文分词, 按照预设的
原创力文档

文档评论(0)