改进互联网电商评论特征词典舆情观点分类.docVIP

改进互联网电商评论特征词典舆情观点分类.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
改进互联网电商评论特征词典舆情观点分类

改进互联网电商评论特征词典舆情观点分类   摘 要:电商评论数据往往都是以短文本(在电商领域这种用户的声音称为源声)形式存在,它在一定程度上会影响商家的知名度,因此对源声的舆情分析尤为重要。源声分类技术的出现正是为了满足商家的这种需求,针对源声特征稀疏以及观点多样性特征点,而且舆情观点错误识别的问题,提出一种改进互信息的方法实现特征约简,从而创建一个特征词典集合,对源声进行观点分类,并作了大量实验验证该思想的可靠性 关键词:特征提取;源声;词典集合;互信息 引言 本文将深入阐述在互联网电商评论短文本信息分类领域的研究,构建一个特征词组-分类的map(k,v)集合,观点是消费者从自身立场出发对某产品的看法,由于产品领域的多样性,产品各个领域都会成为评价的对象,因此同一条源声会有多个观点,可以将源声以分隔符进行拆分,短文本通过分隔符由内向外并行分类方法,从而避免错误输出,并针对此多分类问题,构建多映射的hash map集合 1 短文本结构 1.1 源声组成 在对源声观点识别时常常将源声拆分3种布局方式:“产品”+“评价”的形式;“领域”+“评价”的形式被称为二元观点;“产品”+“领域”+“评价”被称为三元观点。拆分示意图如下所示: 1.2 源声观点输出 VR眼睛这款产品涉及的领域细分有85种。进行源声分类时,如上述源声特征“很差”和“外观”两个特征项构成的单词序列连续出现时,机器很容易理解成“很差的外观”,造成分类观点错误的输出。对于源声“VR眼镜体验效果真心很差,可是外观确实漂亮”,很容易错误输出观点如图2所示: 2 特征选择与特征约简 特征选择是在不丢失文本信息的情况下保留那些最能够代表文档类别的特征,往往对电商评论数据进行观点分类时,起关键作用的不到3个关键词,本文提出一种改进互信息方法提取组成源声文本的前3个强相关特征分别代表“领域”“前缀否定”“评价”。这样可以提高文本分类精度同时减轻计算量和内存的消耗。在构建类标签特征词典时,本文提出一种改进互信息方法对源声文本进行特征提取 2.1 特征选择 特征词和类别的互信息可表示为特征词和类别同时出现的概率与特征词和类别各自分别出现的概率的比值取对数,主题词和类别的互信息可表示为主题词和类别共同出现的频率与特征词和类别各自分别出现的频率的比值取对数[1],计算公式: p(wr)表示主题词出现的频率,p(ck)表示类别出现的频率,p(wr,ck)表示主题词wr与类别ck共同出现的频率[2] 2.2 特征约简 本文提出一种在给定类标签条件下两两不相关特征词之间的改进MI的计算方式: (2) (3) 式中wd代表领域词,wp代表前缀否定、we代表样本的评价特征词,p(wd,we)表示代表源声文本观点的“领域”和“评价共同出现的概率”,p(wd|ci)和p(we|ci)分别代表在类标签ci条件下领域特征词wd和评价词we出现的概率。p(wd,wp,we)表示代表源?文本观点的3个特征词“领域”“前缀否定”“评价”在该篇文本中共同出现的概率 3 改进特征词典构建 Bag of Words算法称为词袋模型,它首先假设组成文本的每个特征词是相互独立的,不关心每个特征词出现的顺序,将源声当做多个特征词组成的集合[3]。由于源声观点的多样性以及观点的误分性,利用Bag of Words容易产生错误输出。而map键值对特性易于理解方便存储,领域与评价强关联的词组组成一个map集合,即map(key,value),其中value表示对应类标签,即value={v1,v2,…vn},其中v代表键值类标签 3.1 词典训练阶段 对每一个类别构建一个类别词典,如舆情观点分类是“外观不好看”,则经过特征筛选组成该类标签的词典是dictionary1={“色泽”,“外观”,“外表”,“没有”,“不”,“好看”,“靓丽”,“上档次”,“鲜艳”,“精美”},将源声经过特征提取后经过每个类标签匹配,若出现该特征词用“1”表示,否则用“0”表示,对于有些源声多个类别,对每个键值使用hash函数,采用链式存储法进行存储。举例:源声“这款VR外观不太好看”,根据dictionary1匹配到当前类别向量是Vector=[0,1,0,0,1,1,0,0,0,0],将匹配到的向量作为map集合的key值存储[4] 3.2 分类阶段 训练好的词典存储在HDFS分布式文件集群上,对每个文件分配一个Reduce作业,以测试样本为输入,每条样本分词后与词典集合进行匹配,采用分布式可对多个样本集进行并行的测试[5] 3.3 算法伪代码(见图3) 4 实验 训练样本数据集和测试样本数据集是在各大电

文档评论(0)

linsspace + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档