Web舆情信息数据分析模型的研究及系统的设计.docVIP

下载本文档

12
0
约5.12千字
约 11页
2018-10-11 发布于福建
举报
版权申诉

Web舆情信息数据分析模型的研究及系统的设计.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web舆情信息数据分析模型的研究及系统的设计

Web舆情信息数据分析模型的研究及系统的设计　　摘要：面对海量Web舆情信息数据资源，在前期探索其演化规律及影响因素研究基础上，该文对Web舆情信息数据进行了特征分析，结构化定义，设计了Web数据分析系统框架，并深入了相关技术研究，为把握Web数据发展态势，科学管理互联网数据信息提供了可行性依据。　　关键词：Web数据；数据挖掘；文本分类；文本聚类　　中图分类号：G206 文献标识码：A 文章编号：1009-3044（2018）03-0022-03 　　1 概述　　互联网及相关技术地快速发展，产生了海量的网络数据信息，面对千变万化的网络数据资源，单纯采用传统的手工检索、收集、分析、处理方法，已经无法满足网络数据管理需求。本文在已有的网络信息演化阶段、影响因素等研究基础上[1]，构建了网络数据模型，设计了网络数据分析系统框架，并研究了技术路线，为快速抽取网络数据信息，有效把握其发展态势，方便实现科学管理提供了可行性依据。　　2 相关研究述评　　饶元等Web数据网络分析主要从社区网络分析、整体网络分析和个体网络中心开始，主要采用数据网络分析手段、方法来解决系统分析的主要问题[2]。庞宇提出了网络数据的特点及主要载体[3]。郑琳提出了Web用户评论中同阶层人群的“抱团取暖”行为[4]。厚泽民等提出了基于潜在语义索引的改进算法[5]。安计勇等提出了改进的K均值文本聚类算法[6]。　　3 Web数据模型研究　　3.1 Web数据特征分析　　Web数据来源于互联网，具备发布随意、形式多样、表达自由等特点，使得特征分析结果冗余度高，离散效果明显，准确度差，难以科学把握其数据挖掘过程和结果分析。因此，对Web数据文本开展有效地预处理，去伪存真，消除冗余和关联数据，是确保Web数据挖掘质量的关键所在，也是进一步开展数据分析、聚类研究的前提。　　Web数据来源于互联网，在网民作用力下随着互联网信息的演化、影响因素的制约和内驱力作用呈现出沿时间轴发展的趋势，Web数据具备以下几个关键特征：　　1） Web数据所在文本数量规模大。据中国互联网网络信息中心统计报告，广大网民借助在线博客、微信、论坛、微博等社交工具开展社交讨论。这是Web数据的广泛来源。　　2） Web数据涉及面广，内容复杂。Web数据几乎涵盖了政治、经济、文化、军事、科技、艺术、医疗、生态、环保、养老、就业等所有重要领域，还包含了区域特点、风土人情及民众生活的方方面面及社会百态。　　3）广告信息多，真假难辨。非官方的Web页面多数存在大量的广告信息，以及不实信息帖子等，与Web数据主题无关，需要对数据进行噪声预处理，其质量高低直接影响文本挖掘和数据分析结果。　　4） Web数据分布的不均衡。Web用户网上行为（发帖偏好、发帖时间、发帖内容、发帖主题、态度观点等）的不确定性、选择载体的不确定性等因素决定了Web数据的分布不均。如：天涯论坛大多讨论社会百态，铁血论坛主要针对军事领域，小木虫论坛科研技术数据居多。不同网民围绕各自的兴趣倾向访问不同Web页面，衍生出一系列的评论、转帖、顶帖等行为数据。　　5） Web用户存在情绪倾向、行为偏好等个性特征。Web用户大多数属于普通用户，十分关注生活所用、工作所需以及与自身利益相关的就业、环保、退休养老等热点话题，个人情绪及行为偏好等相关数据在所难免地存在与Web数据中。　　3.2 Web数据结构化模型定义　　在掌握Web数据结构特征前提下，为了充分挖掘Web数据，并能为数据分析、数据处理所用，本文对Web数据结构化定义如下：　　1） Web用户主体结构化模型定义　　Web用户作为互联网的主体对象，多数情况需要信息注册后才能获得浏览内容、回复评论及下载资料等行为允许。对Web用户而言，不仅在互联网产生静态数据结构信息，同时产生了动态操作行为、操作内容以及和其他Web用户之间建立的关联关系等社会网络信息。因此，本文对Web用户主体结构化模型定义包含三方面内容：一是Web用户静态属性信息，如：用户名、性别、年龄、住址、URL、活跃等级、社会阶层、社会影响力、社会知名度、学历、收入、教育经历、工作经历、个人简介、注册日期、个性标签等；二是Web用户动态属性信息，发表文章数、回复帖子数、Web页面浏览爱好、在线时长、关注数、支持数、粉丝数、反对数、评论数、推荐数、情绪倾向、行为偏好、最后登录时间等；三是行为关联文本信息，如：标题、领域类别、文本内容等；四是用户关联关系信息，如：关注我的Web用户、被我关注的Web用户，关系属性等。其模型描述如图1所示：　　2） Web数据文本结构化模型定义　　众所周知，Web页面的数据文本内容，本身就包含自身存在的静态文本对象内容和动