- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web舆情信息数据分析模型的研究及系统的设计
Web舆情信息数据分析模型的研究及系统的设计
摘要:面对海量Web舆情信息数据资源,在前期探索其演化规律及影响因素研究基础上,该文对Web舆情信息数据进行了特征分析,结构化定义,设计了Web数据分析系统框架,并深入了相关技术研究,为把握Web数据发展态势,科学管理互联网数据信息提供了可行性依据。
关键词:Web数据;数据挖掘;文本分类;文本聚类
中图分类号:G206 文献标识码:A 文章编号:1009-3044(2018)03-0022-03
1 概述
互联网及相关技术地快速发展,产生了海量的网络数据信息,面对千变万化的网络数据资源,单纯采用传统的手工检索、收集、分析、处理方法,已经无法满足网络数据管理需求。本文在已有的网络信息演化阶段、影响因素等研究基础上[1],构建了网络数据模型,设计了网络数据分析系统框架,并研究了技术路线,为快速抽取网络数据信息,有效把握其发展态势,方便实现科学管理提供了可行性依据。
2 相关研究述评
饶元等Web数据网络分析主要从社区网络分析、整体网络分析和个体网络中心开始,主要采用数据网络分析手段、方法来解决系统分析的主要问题[2]。庞宇提出了网络数据的特点及主要载体[3]。郑琳提出了Web用户评论中同阶层人群的“抱团取暖”行为[4]。厚泽民等提出了基于潜在语义索引的改进算法[5]。安计勇等提出了改进的K均值文本聚类算法[6]。
3 Web数据模型研究
3.1 Web数据特征分析
Web数据来源于互联网,具备发布随意、形式多样、表达自由等特点,使得特征分析结果冗余度高,离散效果明显,准确度差,难以科学把握其数据挖掘过程和结果分析。因此,对Web数据文本开展有效地预处理,去伪存真,消除冗余和关联数据,是确保Web数据挖掘质量的关键所在,也是进一步开展数据分析、聚类研究的前提。
Web数据来源于互联网,在网民作用力下随着互联网信息的演化、影响因素的制约和内驱力作用呈现出沿时间轴发展的趋势,Web数据具备以下几个关键特征:
1) Web数据所在文本数量规模大。据中国互联网网络信息中心统计报告,广大网民借助在线博客、微信、论坛、微博等社交工具开展社交讨论。这是Web数据的广泛来源。
2) Web数据涉及面广,内容复杂。Web数据几乎涵盖了政治、经济、文化、军事、科技、艺术、医疗、生态、环保、养老、就业等所有重要领域,还包含了区域特点、风土人情及民众生活的方方面面及社会百态。
3) 广告信息多,真假难辨。非官方的Web页面多数存在大量的广告信息,以及不实信息帖子等,与Web数据主题无关,需要对数据进行噪声预处理,其质量高低直接影响文本挖掘和数据分析结果。
4) Web数据分布的不均衡。Web用户网上行为(发帖偏好、发帖时间、发帖内容、发帖主题、态度观点等)的不确定性、选择载体的不确定性等因素决定了Web数据的分布不均。如:天涯论坛大多讨论社会百态,铁血论坛主要针对军事领域,小木虫论坛科研技术数据居多。不同网民围绕各自的兴趣倾向访问不同Web页面,衍生出一系列的评论、转帖、顶帖等行为数据。
5) Web用户存在情绪倾向、行为偏好等个性特征。Web用户大多数属于普通用户,十分关注生活所用、工作所需以及与自身利益相关的就业、环保、退休养老等热点话题,个人情绪及行为偏好等相关数据在所难免地存在与Web数据中。
3.2 Web数据结构化模型定义
在掌握Web数据结构特征前提下,为了充分挖掘Web数据,并能为数据分析、数据处理所用,本文对Web数据结构化定义如下:
1) Web用户主体结构化模型定义
Web用户作为互联网的主体对象,多数情况需要信息注册后才能获得浏览内容、回复评论及下载资料等行为允许。对Web用户而言,不仅在互联网产生静态数据结构信息,同时产生了动态操作行为、操作内容以及和其他Web用户之间建立的关联关系等社会网络信息。因此,本文对Web用户主体结构化模型定义包含三方面内容:一是Web用户静态属性信息,如:用户名、性别、年龄、住址、URL、活跃等级、社会阶层、社会影响力、社会知名度、学历、收入、教育经历、工作经历、个人简介、注册日期、个性标签等;二是Web用户动态属性信息,发表文章数、回复帖子数、Web页面浏览爱好、在线时长、关注数、支持数、粉丝数、反对数、评论数、推荐数、情绪倾向、行为偏好、最后登录时间等;三是行为关联文本信息,如:标题、领域类别、文本内容等;四是用户关联关系信息,如:关注我的Web用户、被我关注的Web用户,关系属性等。其模型描述如图1所示:
2) Web数据文本结构化模型定义
众所周知,Web页面的数据文本内容,本身就包含自身存在的静态文本对象内容和动
您可能关注的文档
- VR图书馆的研究.doc
- VR技术下“NL”全维行业英语教学的模式的应用探析.doc
- Vr视角看室内的设计.doc
- VS 的环境下XML 解析实现.doc
- VR购物 超现实零距离打通新的模式.doc
- VR技术条件下财务管理专业体验式的案例教学探究.doc
- VSD护理新进展的探讨.doc
- VSCHVDC双积分滑模解耦控制器的设计.doc
- VSAT通信系统在陆军船艇中的应用.doc
- VUCA时代下跨境电商HR―BP的模式优化的研究.doc
- What are you doing for vacation教学的设计.doc
- Wernicke脑病临床疗效的影响因素分析.doc
- What do you like课堂实录及的反思.doc
- What is the weather like教学的设计.doc
- WHAT TIME IS IT教学的设计.doc
- What does she do教学的设计.doc
- What were you doing at this time yesterday教学的设计.doc
- What’s the weather like today教学的设计.doc
- What’s this in English Self check教学的设计.doc
- WHAT’S THE TIME教学的设计.doc
最近下载
- 饮食营养与卫生.doc VIP
- 固定卷扬式启闭机计算书.doc VIP
- 部编版语文三年级上册第四单元习作《续写故事》课件.pptx VIP
- 2025全国大学生英语竞赛c类真题.pdf VIP
- 尼康D5200使用说明书_大陆_VRUM_SG(Sc)01.pdf VIP
- 管理会计智慧树知到答案章节测试2023年安徽财经大学.docx VIP
- 两、三位数除以一位数第1课时 口算和估算 课件 2025 苏教版数学三年级上册.ppt
- 选煤厂操作规程汇编.docx VIP
- 2025中国南方电网有限责任公司共享运营公司招聘(17人)笔试备考试题及答案解析.docx VIP
- 青岛版信息科技第3册学历案.docx VIP
文档评论(0)