- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
                        查看更多
                        
                    
                基于XGBoost算法电商评论文本情感识别模型
                    基于XGBoost算法电商评论文本情感识别模型
    摘 要:由于电子商务网站上商品评论数量激增,对商品评论信息进行数据挖掘和情感分析显得尤为重要。文中立足于电子商务平台上生鲜产品的评论文本,将情感识别问题抽象为分类问题,结合TF-IDF和卡方检验方法提取文本特征,利用XGBoost算法训练分类器建立商品评论文本的情感识别模型,将海量的商品评论数据转换为人们需要的信息。 
  关键词:电子商务;用户评论;XGBoost算法;情感识别 
  中图分类号:TP39 文献标识码:A 文章编号:2095-1302(2018)01-00-04 
  0 引 言 
  互联网和电子商务的发展,使网络上的商品评论文本数量激增,这些商品评论对购买同种商品的买家具有指导作用。然而面对数量庞大的商品评论,买家若通过逐个查看的方式获取信息必将耗费大量精力,效果也不好。同时电子商务平台上的评论分类并不能准确表达已购买用户真正的情感倾向。在eBay信誉机制研究中Resnick等曾指出,买家由于担心差评会遭到卖家的报复会在评论时选择给出好评[1],比如2012年轰动一时的“寿衣门”事件。因此,大量消费者在评论时会再三思虑,造成了许多负面评价隐藏在好评之下。面对这些问题,迫切需要对评论文本进行情感倾向识别。 
  文本情感分析实质上是对带有情感色彩的主观性文本进行分析、归纳和处理的过程[2],吸引着不同领域研究者的广泛关注,比如人工智能、自然语言处理以及数据挖掘等[3-6],涌现出大量相关的研究工作。目前在文本情感分析方面最常用的两种方法是基于语义词典和基于机器学习的分类算法 [7]。 
  基于语义词典的情感计算方法利用通用情感词典或编纂情感词表来进行情感分析。文献[8]提出合并通用情感词典并利用word2vec工具扩充词典构建酒店领域情感词典,可有效对酒店领域的评论进行情感分析。文献[9]针对网络在线中文评论的特点,将领域本体和情感词典相结合进行商品评论倾向性分析。文献[10]基于HowNet情感词典和自建的形容词配价词典,在HNC语境框架下进行文本的情感倾向性判断,并通过实验验证了该方法具有较高的识别率。 
  基于机器学习的分类算法是将情感分析作为分类问题来解决,通过机器学习的方法对大量标注文本进分类训练,使用训练的分类模型来预测待分类文本的类别。文献[11]中分别用最大熵模型、朴素贝叶斯算法和支持向量机三种机器学习的方法进行情感分类研究。此后,研究者通过改变分类器策略、合并分类器、训练集变形等方法来提高分类效果,文献[12]中比较了朴素贝叶斯和支持向量机两种分类算法的优缺点,提出两者的综合体NBSVM模型。文献[13]综合了多个半监督分类器的结果,发现综合后的结果均高于原本单个分类器。 
  但是传统的情感分析方法并不足以满足高准确率的要求,文本情感分类的准确率仍然有待提高。XGBoost算法是在2014年实现的一种算法,在工业中有大量应用,但鲜有研究者将其应用在情感分析中,为此本文采用XGBoost算法对网络上的商品评论文本进行情感分析,并将其与朴素贝叶斯和支持向量机分类器进行比较。 
  1 评论文本情感识别模型 
  本文提出的模型将商品评论文本情感识别抽象为一个分类问题,采用机器学习的方法对人工标注的文本数据及其特征进行学习,得出预测模型,从而在输入评论文本数据后自动预测该文本数据的情感倾向。模型的流程如图1所示。 
  由图1可以看出,商品评论文本情感识别模型的完整流程主要包括以下3个阶段: 
  (1)模型训练阶段 
  该阶段主要是对数据集中的训练集进行相关处理并提取特征,利用XGBoost算法训练分类器获得情感分类模型。 
  (2)模型测试阶段 
  该阶段主要根据相关评价指标,利用数据集中的测试集对模型训练阶段获得的情感分类模型进行性能评测。 
  (3)情感识别阶段 
  该阶段主要利用通过性能评价的情感分类模型对待处理的文本进行情感分析,得到情感分析结果,完成整个情感分析的过程。 
  1.1 ?稻菁?建立 
  文中所使用的数据集是利用八爪鱼采集器在京东商城生鲜区采集的火龙果评论文本,随机选取其中11 098条数据作为本文的实验数据,数据中包含部分无效数据,比如“听说评价可以获取京东豆” “展卉越南进口红心火龙果2个装,单果约500g”等,去除320条无效评价,选取余下的10 778条有效评论文本作为本实验的数据集并进行人工标注。 
  实验中的情感识别是指对评论文本的情感极性(正向、中性和负向)进行判断,因此,在人工标注时将数据集标注为三个类别标签“1”“2”“3”,分别代表“正向评价”“中性评价”“负向评价”,标注完成后的数据集类别分布见表1所列,其中数据集中包括4 191条正向评价,3 171条中性评价和3 41
                您可能关注的文档
最近下载
- 电力分析软件:PSSE二次开发all.docx VIP
- 冠脉介入培训试题及答案.docx VIP
- 电力调度软件:PSSE二次开发all.docx VIP
- 电力分析软件:PSSE二次开发_(4).PSSE编程环境与语言.docx VIP
- 电力调度软件:PSSE二次开发_(6).PSSE高级功能与优化.docx VIP
- 电力调度软件:PSSE二次开发_(3).Python在PSSE中的应用.docx VIP
- 电力分析软件:PSSE二次开发_(24).未来电力系统趋势与PSSE的发展.docx VIP
- 既有管线保护专项施工方案(已审批).doc
- 不同人群的运动处方.pptx VIP
- 电力调度软件:PSSE二次开发_(5).PSSE案例分析与实践.docx VIP
 原创力文档
原创力文档 
                        

文档评论(0)