基于决策树的网络伪舆情识别研究.PDF

基于决策树的网络伪舆情识别研究

研究论文 基于决策树的网络伪舆情识别研究 赵静娴 (天津科技大学经济与管理学院 天津 300222) 摘要: 【目的 】针对舆情的识别问题, 提出一种基于组合优化决策树的伪舆情识别方法。【方法 】在特征分析的 基础上, 给出 A 、B 、C 三类伪舆情的定义。构建伪舆情评价指标体系, 并通过对评价指标离散化, 以归一输入 输出关联值为属性选择标准建立决策树。【结果 】基于Matlab 实现, 通过实验证明利用组合优化决策树所构建的 伪舆情识别模型能够达到较高的预测准确率。【局限 】模型和数据偏重固定网络媒介, 移动社交软件等新兴网络 媒介的兴起可能改变伪舆情特征, 从而需要对方法做进一步改进。【结论 】提供一种对多分类伪舆情进行智能识 别的新方法。 关键词: 伪舆情 评价指标 数据挖掘 决策树 分类号: G202 1 引 言 陈燕方等[6]提出一种基于评论产品属性情感倾向评估 模型, 其共同特点是对文本语料进行低可信度的判 随着信息技术、移动互联、智能手机等技术的发 断。刘勘等[7]提出基于支持向量机的网络真伪舆情分 展, 网络成为大众舆情的主要载体并以前所未有的深 类模型, 采用多项式核函数以及优化之后的径向基核 度、广度和速度影响着人们生活的各个方面。网络舆 函数产生的分类器, 预测准确率高, 但该文只是笼统 情不仅是人们对某些事件、话题、观点的反应, 同时 地将舆情分为真舆情与伪舆情, 有关伪舆情的严格界 也对人们的思想和行为有着巨大的影响和反作用。伪 定并没有提及。而实际上事件观点本身的真伪和舆情 舆情利用网络的影响力和人们的从众心理, 掀起网络 谣言, 歪曲事实真相, 混淆视听, 对正常的网络生活 形成过程的真伪都会对舆情的真伪造成影响, 进一步 造成了负面的影响, 甚至造成社会恐慌和危机[1] 。因此 还会形成不同类型的伪舆情。因此本文在特征分析的 如何尽早识别伪舆情, 科学监督控制网络舆论健康发 基础上, 对伪舆情进行分类, 并提出一种基于组合优 展是舆情管理面临的严峻问题。 化决策树算法的伪舆情识别方法。 2 相关研究 3 伪舆情的特征和分类研究 [2] [3] 3.1 伪舆情的特征 伪舆情的概念最早由宋常青 提出, 刘勘等 、方 付建[4]进一步扩展了对网络伪舆情的认知, 并对伪舆 (1) 虚假性 情的成因、特征和影响进行了深入分析。综合以上观 伪舆情主要表现在引起网络舆论的话题事件、网 点, 本文认为伪舆情是指在诸如网络推手炒作或虚假 络言论等的不真实的、夸大的、歪曲的成分。如果引 信息刺激等手段的推动下, 使民众产生的带有倾向性 起某种网络舆情的发帖存在真实性的问题, 那么这个 的多种评论、情绪、态度、意见的总和。目前针对在 舆情的展开实际上是个伪命题, 也就必然成为伪舆 线虚假评论识别的研究已充分开展, 如孟美任等[5]采 情。具体表现在数据造假、捏造事实、隐瞒真相、夸 用CRFs 模型对在线中文商品评论进行可信度分类。 大事实等。 通讯作者: 赵静娴, ORCID: 0000-0003-1014-4676, E-mail: nzjx2012@163.com 。 78 现代图书情报技术 总第259 期 2015 年 第6 期 (2) 人为性

文档评论(0)

1亿VIP精品文档

相关文档