垃圾观点文档识别数学建模.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
垃圾观点文档识别数学建模

垃圾观点文档识别 摘要 目前商务网站允许用户发表针对产品的一些评论,但其中难免会存在一些垃 圾评论,极大地误导了商家和用户辨识信息的真伪。因此评论垃圾识别越来越成 为一个值得关注的具有社会价值和应用价值的热点问题。 对于问题一,仅考虑所给垃圾评论的文本内容,首先利用jieba网站对评论 内容进行分词、去停用词、词性分析、关键词提取,然后结合评价句的路径匹配 模板进行评价语句的提取,典型特征的提取进行分析论证。最后根据关键词建立 模型,以所给定垃圾评论的部分数据和获取的正常评论建立训练样本,剩余垃 评论为测试样本,运用BP神经网络训练、测试,进行垃圾评论识别,得出准确 率为0.57,召回率为0.51。由于本问只从所给垃圾评论的文本内容这单一方面 考虑,并且训练样本太少,测试数也太少,所以准确率和召回率都不高,比较符 合实际。 对于问题二:充分考虑了用户行为所带来的影响,在此基础上,模型针对获 取的苹果6产品评价进行了分析,并进行综合指标考量与问题一的结果进行对比, 发现BP神经网络算法分类的构建在同时考虑了用户行为的情况下,垃圾评论的 识别更加全面准确。最终垃圾评论识别的准确率为0.65,召回率为0.64;只考 虑用户行为时,准确率为0.44,召回率为0.49。 问题三:从评论人行为出发,建立了一个基于评论人行为的数学模型,并对 其进行讨论和分析。首先根据对问题一和二的求解过程中可知,评论人的一些特 定行为也与垃圾评论发布行为具有一定的相关性,于是本文分别从评论人发布评 论的频度、当前商品的评论发布频度、重复性指标、以及用户评分偏差行为的垃 圾评论者检测模型等四种评论人的行为上检测垃圾评论,建立了一个基于评论人 行为的数学模型。最后根据自己的理解给出该类识别问题的看法。 关键词: 垃圾评论 BP神经网络 偏差行为 1 一、问题重述 1.1问题背景: 目前商务网站或博客论坛允许用户发表针对产品或话题的一些评论看法,难 免会存在一些虚假的或是与产品及话题无关的评论信息,这极大地误导了商家、 读者以及观点挖掘系统,造成了资源的浪费。因此,垃圾观点文档的识别具有重 要研究价值和实用意义。 本任务是对给定的语料集合中,要求参赛系统识别出文档是否为垃圾观点文 档。 1.2需要解决的问题: (1)针对下面介绍的情形,请建立合理的数学模型进行识别,并给出你的算 法流程。并通过程序验证,给出你的正确识别率。 (2)请在网络上收集一个更大的关于某件产品的评价集合,建立合理的数学 模型和算法进行识别,并给出你的结论。 (3)对一般的产品评价集合,讨论并建立更一般的模型,并谈谈你的该类识 别问题的看法。 附件 1 下面四个句子,其中前面三个不是垃圾观点文档,第四个则是垃圾观点文档。 Doc1买的 6plus,轻薄分辨率高,电池耐用,屏幕够大,散热比之前的 有所改进/Doc1 Doc2看到个视频,iphone6 轻轻一掰就弯了/Doc2 Doc3我还是喜欢保时捷,外观、内饰都大气奢华 /Doc3 Doc4总是有人都没用过买不起,就在哪里瞎说说 /Doc4 二、模型假设和符号说明 2.1模型假设 假设1:对于用于训练的样本评论分类事先已经人为分出; 2 假设2:评论文档没有英文、图片、链接等评论。 2.2符号说明 符号 符号说明 R 召回率 P 准确率 F 综合模型的有效性 Tk 经评价句特征提取后得到的主题名词集合 S 预先设定的评论主题特征词集合 PMI

您可能关注的文档

文档评论(0)

a888118a + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档