网站大量收购独家精品文档,联系QQ:2885784924

基于多特征融合跨域情感分类模型研究.doc

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于多特征融合跨域情感分类模型研究

基于多特征融合跨域情感分类模型研究   摘要:[目的/意义]跨领域情感分类仍是亟需重点研究的问题之一。[方法/过程]借助情感无关词,通过谱聚类算法构建源领域与目标领域的跨域情感特征词簇,将谱聚类得到的情感词特征与位置特征、关键词特征、词性特征融入逻辑回归分类算法中,实现基于多特征融合的跨领域情感分类算法;并以用户评论数据进行验证。[结果/结论]研究结果表明,CDFF(Cross Domain pulse Four Factor)算法可有效实现跨域用户的情感分类,为跨领域情感分类研究提供借鉴。   关键词:跨域情感分类 多特征融合 谱聚类 迁移学习   分类号:TP391   引用格式:琚春华, 邹江波, 傅小康. 基于多特征融合的跨域情感分类模型研究[J/OL]. 知识管理论坛, 2016, 1(6): 464-470[引用日期]. http:///p/1/83/.   1 引言   互联网用户的交互行为产生了大量评论数据,如客户购买某商品后的评论、微博用户针对热点话题的评论等。这些交互数据中隐含着用户对某类事物的情感倾向,它对构建用户兴趣模型、产生推荐结果具有重要实践意义。情感分类即根据评论数据将用户情感分为两类:积极和消极,虽然人们可以很容易从某条评论数据中推测出当时评论者的情感,但对于机器来说并非易事,并且一些评论数据中并没有显性的表达出用户情感,这更增大了机器学习的难度。   国内外已有许多学者通过半监督学习的方法对情感分类问题进行了研究[1-3],有研究者为了更好地利用关键句和细节句之间的差异性和互补性,将抽取的关键句分别用于有监督和半监督的情感分类中[2],但如何准确判断出评论的关键句仍是需要继续深入研究的问题。有研究者使用大规模未标记数据和少量情绪词实现了情感分类[3],虽然降低了人工标记数据的成本,但模型不能重复在其他领域中使用,仍需针对特定领域进行情感分类学习。在情感分类研究中也有针对如何计算情感词的情感度,有学者针对情感词的情感度确定问题进行研究[4],提出了模糊层次分析法来度量情感词的情感度。这些方法的分类结果依赖于手工标识的训练数据,训练数据好的分类准确率也高,但实际情况却是每个领域中手工标识形成分类训练数据的代价是很高的,如果对每个领域都进行手工数据标识也是不现实的,因此有研究者考虑到情感分类任务的领域相关性[5],通过跨领域学习减少情感分类的数据标记,提出一种基于评价对象类别的跨领域学习方法,但评价对象类别粒度较粗,不适合跨多个领域的情感分类[6]。由此可见,在某一个领域情感训练产生的分类准确的分类器未必能在另一个领域中表现出同样的准确性。为了解决情感分类算法领域依赖性高、人工数据标记成本大等问题,本文对跨域情感分类进行了深入研究,发现通过谱聚类可缩短不同领域间情感词的距离,在已有研究的基础上,本文希望借助情感无关词来桥接源领域与目标领域,再利用谱聚类算法将不同领域的情感词聚集到一起,并考虑相关特征进行融合,以此实现跨领域情感分类。   2 概念定义与问题描述   本节对领域、情感词、跨域情感分类等相关概念做出了相关定义。   定义1领域:一个领域D代表现实世界中一类实体或概念的集合。   可理解为超市中不同的产品区域,有食品、文具、家电等,图书馆中不同学科领域,领域的粒度可抽象或细分,具体需根据实际情况而定。   定义2情感词:给定一个特定的领域,情感词是那些能够反映用户情感倾向的词语。   这些情感词与用户短语表达出来,通过语句拆分可组成情感词序列[w1,w2,w3…wn],本研究中没有考虑情感词在语句的排序对最终情感分类的影响,但考虑了情感词在语句中的位置对最终情感分类的影响,每个特定的领域D有属于本领域的情感词库W(wi?W),借鉴bag-of-words的思想,将c(wi,xj)表示为情感词wi在语句xj中出现的频率。   定义3情感分类:给定领域,根据语句xi整体语义表达划分情感类别yi(正面yi=1或负面yi=-1)将已标记情感类别的语句组成情感分类中的训练数据(xi,yi),将未被标记情感类别的语句称为预测数据。   定义4跨域情感分类:给定两个不同的领域,源领域(Dsrc)和目标领域(Dtar),假定源领域中含已标记数据集([xsrci,ysrci],i?1,2…nsrc),目标数据集含未标记数据集([xtarj],j?1,2…ntar),如果某个分类器能通过在源领域训练学习准确预测目标领域中未标记的数据集,那么将这样的分类称为跨域情感分类。   跨域情感分类需要解决领域依赖的问题,即相邻领域情感词的表达是相近的,而实际情况中,用户通常会针对不同的领域发表与领域相关的评论语,如表1列举了新浪微博中用户对电影和社会两大类别中相关热点微话题的评论,用户

文档评论(0)

189****7685 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档