Web舆情信息数据分析模型的研究及系统的设计.docVIP

Web舆情信息数据分析模型的研究及系统的设计.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web舆情信息数据分析模型的研究及系统的设计

Web舆情信息数据分析模型的研究及系统的设计   摘要:面对海量Web舆情信息数据资源,在前期探索其演化规律及影响因素研究基础上,该文对Web舆情信息数据进行了特征分析,结构化定义,设计了Web数据分析系统框架,并深入了相关技术研究,为把握Web数据发展态势,科学管理互联网数据信息提供了可行性依据。   关键词:Web数据;数据挖掘;文本分类;文本聚类   中图分类号:G206 文献标识码:A 文章编号:1009-3044(2018)03-0022-03   1 概述   互联网及相关技术地快速发展,产生了海量的网络数据信息,面对千变万化的网络数据资源,单纯采用传统的手工检索、收集、分析、处理方法,已经无法满足网络数据管理需求。本文在已有的网络信息演化阶段、影响因素等研究基础上[1],构建了网络数据模型,设计了网络数据分析系统框架,并研究了技术路线,为快速抽取网络数据信息,有效把握其发展态势,方便实现科学管理提供了可行性依据。   2 相关研究述评   饶元等Web数据网络分析主要从社区网络分析、整体网络分析和个体网络中心开始,主要采用数据网络分析手段、方法来解决系统分析的主要问题[2]。庞宇提出了网络数据的特点及主要载体[3]。郑琳提出了Web用户评论中同阶层人群的“抱团取暖”行为[4]。厚泽民等提出了基于潜在语义索引的改进算法[5]。安计勇等提出了改进的K均值文本聚类算法[6]。   3 Web数据模型研究   3.1 Web数据特征分析   Web数据来源于互联网,具备发布随意、形式多样、表达自由等特点,使得特征分析结果冗余度高,离散效果明显,准确度差,难以科学把握其数据挖掘过程和结果分析。因此,对Web数据文本开展有效地预处理,去伪存真,消除冗余和关联数据,是确保Web数据挖掘质量的关键所在,也是进一步开展数据分析、聚类研究的前提。   Web数据来源于互联网,在网民作用力下随着互联网信息的演化、影响因素的制约和内驱力作用呈现出沿时间轴发展的趋势,Web数据具备以下几个关键特征:   1) Web数据所在文本数量规模大。据中国互联网网络信息中心统计报告,广大网民借助在线博客、微信、论坛、微博等社交工具开展社交讨论。这是Web数据的广泛来源。   2) Web数据涉及面广,内容复杂。Web数据几乎涵盖了政治、经济、文化、军事、科技、艺术、医疗、生态、环保、养老、就业等所有重要领域,还包含了区域特点、风土人情及民众生活的方方面面及社会百态。   3) 广告信息多,真假难辨。非官方的Web页面多数存在大量的广告信息,以及不实信息帖子等,与Web数据主题无关,需要对数据进行噪声预处理,其质量高低直接影响文本挖掘和数据分析结果。   4) Web数据分布的不均衡。Web用户网上行为(发帖偏好、发帖时间、发帖内容、发帖主题、态度观点等)的不确定性、选择载体的不确定性等因素决定了Web数据的分布不均。如:天涯论坛大多讨论社会百态,铁血论坛主要针对军事领域,小木虫论坛科研技术数据居多。不同网民围绕各自的兴趣倾向访问不同Web页面,衍生出一系列的评论、转帖、顶帖等行为数据。   5) Web用户存在情绪倾向、行为偏好等个性特征。Web用户大多数属于普通用户,十分关注生活所用、工作所需以及与自身利益相关的就业、环保、退休养老等热点话题,个人情绪及行为偏好等相关数据在所难免地存在与Web数据中。   3.2 Web数据结构化模型定义   在掌握Web数据结构特征前提下,为了充分挖掘Web数据,并能为数据分析、数据处理所用,本文对Web数据结构化定义如下:   1) Web用户主体结构化模型定义   Web用户作为互联网的主体对象,多数情况需要信息注册后才能获得浏览内容、回复评论及下载资料等行为允许。对Web用户而言,不仅在互联网产生静态数据结构信息,同时产生了动态操作行为、操作内容以及和其他Web用户之间建立的关联关系等社会网络信息。因此,本文对Web用户主体结构化模型定义包含三方面内容:一是Web用户静态属性信息,如:用户名、性别、年龄、住址、URL、活跃等级、社会阶层、社会影响力、社会知名度、学历、收入、教育经历、工作经历、个人简介、注册日期、个性标签等;二是Web用户动态属性信息,发表文章数、回复帖子数、Web页面浏览爱好、在线时长、关注数、支持数、粉丝数、反对数、评论数、推荐数、情绪倾向、行为偏好、最后登录时间等;三是行为关联文本信息,如:标题、领域类别、文本内容等;四是用户关联关系信息,如:关注我的Web用户、被我关注的Web用户,关系属性等。其模型描述如图1所示:   2) Web数据文本结构化模型定义   众所周知,Web页面的数据文本内容,本身就包含自身存在的静态文本对象内容和动

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档