基于半监督学习算法的虚假评论识别研究.docx

下载文档 降价啦

20
0
约1.79万字
约 8页
2019-07-14 发布于江西
举报
版权申诉
保障服务

基于半监督学习算法的虚假评论识别研究.docx

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第 46 卷第 3 期四川大学学报 ( 工程科学版 ) Vol． 46 No． 3 2014 年 5 月 JOUＲNAL OF SICHUAN UNIVEＲSITY ( ENGINEEＲING SCIENCE EDITION) May 2014  文章编号: 1009-3087( 2014) 03-0062-08 基于半监督学习算法的虚假评论识别研究任亚峰，姬东鸿* ，尹兰 ( 武汉大学计算机学院，湖北武汉 430072) 摘要: 已有的虚假评论识别方法主要采用启发式策略或简单特征建模。针对这些方法的不足，提出使用机器学习方法识别虚假评论。首先整合计算语言学与心理语言学的知识对评论文本进行建模，使用全监督学习算法来评价不同特征建模的性能，选出最好的特征组合。为了提高识别性能，设计 2 种半监督学习算法充分利用大量的未标注文本。实验结果证实所提算法超过当前的基准。关键词: 机器学习; 半监督学习; 计算语言学; 虚假评论中图分类号: TP391 文献标志码: A Deceptive Ｒeviews Detection Based on Semi-supervised Learning Algorithm ＲEN Yafeng，JI Donghong* ，YIN Lan ( Computer School，Wuhan Univ．，Wuhan 430072，China) Abstract: Machine learning methods were presented to identify deceptive reviews． With the integration of knowledge from computational linguistics and psycholinguistics，supervised method was developed to evaluate the performance of different feature modelings，and select the best mixed features． Then，two semi-supervised learning methods were designed to exploit the large amount of unlabeled data． The re- sults showed the proposed methods outperform the current baselines． Key words: machine learning; semi-supervised learning; computational linguistics; deceptive reviews 互联网的出现逐步改变了人们表达观点以及同他人交际的方式。人们可以在交易网站、论坛和博客上大量的写下他们的评论和观点，这种由网络用户所贡献的内容被称为用户生成内容。当前，消费者在购买产品或者服务前，通常会阅读与该产品或服务相关的评论以决定是否购买。商业群体也可根据这些评论信息适时调整其产品和市场策略。因此，以产品评论为载体的情感分析和观点挖掘成了人工智能研究的热门话题［1 － 2］。情感分析与观点挖掘的研究工作有着共同的前提: 所采用的观点源( 评论文本) 是真实可信的。由于观点信息可以引导消费者的购买行为，好的评论会给商业组织和个体带来好的名声，导致巨大的经济效益，这在一定程度上促使了虚假评论的产生。因此，实际使用的观点源中肯定存在着大量的虚假评论，识别并过滤这些虚假评论有着重要的现实意义和理论价值。通过对虚假评论的观察以及前人工作的研究［3 － 4］，虚假评论分为以下 2 类: 1) 类型 1( 欺骗性评论) : 指故意写下好评论以促进该产品的销售，或者故意写下差评论来破坏产品的名声，由此而产生的评论。 2) 类型 2( 破坏性评论) : 此类评论主要是一些广告以及不含观点信息的随机评论。先前的工作主要集中于破坏性评论的识别和过滤，这种评论对消费者的威胁不大，因为人们可以轻易的识别并忽略。然而，到目前为止，欺骗性评论的检测工作不是很多，并且效果不好。本研究主要面向于这种识别难度更大的虚假评论。收稿日期: 2013 － 10 － 30 基金项目: 国家自然科学基金重点项目( ; 国家自然科学基金资助项目( ) ; 中央高校基本科研业务费专项资金资助项目( 2012211020210) 作者简介: