- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基于WEB数据挖掘的网络舆情分析研究
一、网络舆情
网络舆情是由于各种事件的刺激而产生的通过互联网
传播的人们对于该事件的所有认知、态度、情感和行为倾向
的集合。网络舆情形成迅速,对社会影响巨大。随着因特网
在全球范围内的飞速发展,网络媒体已被公认为是继报纸、
广播、电视之后的“第四媒体”,网络成为反映社会舆情的
主要载体之一。网络环境下的舆情信息的主要来源有:新闻
评论、BBS、博客、聚合新闻(RSS)。网络舆情表达快捷、
信息多元,方式互动,具备传统媒体无法比拟的优势。
网络的开放性和虚拟性,决定了网络舆情具有以下特
点:
(一)直接性,通过BBS,新闻点评和博客网站,网民
可以立即发表意见,下情直接上达,民意表达更加畅通;
(二)突发性,网络舆论的形成往往非常迅速,一个热
点事件的存在加上一种情绪化的意见,就可以成为点燃一片
舆论的导火索;
(三)偏差性,由于发言者身份隐蔽,并且缺少规则限
制和有效监督,网络自然成为一些网民发泄情绪的空间。在
现实生活中遇到挫折,对社会问题片面认识等等,都会利用
网络得以宣泄。因此在网络上更容易出现庸俗、灰色的言论。
二、数据挖掘技术
数据挖掘(DataMining,DM),又译为资料探勘、数据
采矿。它是数据库知识发现中的一个步骤。数据挖掘一般是
指从大量的数据中通过算法搜索隐藏于其中信息的过程。数
据挖掘是目前人工智能和数据库领域研究的热点问题。数据
挖掘是一种决策支持过程,它主要基于人工智能、机器学习、
模式识别、统计学、数据库、可视化技术等,高度自动化地
分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模
式,帮助决策者调整市场策略,减少风险,做出正确的决策。
知识发现过程由以下三个阶段组成:1.数据准备,2.数据挖
掘,3.结果表达和解释。数据挖掘可以与用户或知识库交互。
(一)决策树。决策树是数据挖掘分类算法的一个重要
方法。在各种分类算法中,决策树是最直观的一种。每个决
策树都表述了一种树型结构,它由它的分支来对该类型的对
象依靠属性进行分类。每个决策树可以依靠对源数据库的分
割进行数据测试。这个过程可以递归式的对树进行修剪。当
不能再进行分割或一个单独的类可以被应用于某一分支时,
递归过程就完成了。另外,随机森林分类器将许多决策树结
合起来以提升分类的正确率。
决策树同时也可以依靠计算条件概率来构造。
决策树如果依靠数学的计算方法可以取得更加理想的
效果。数据库已如下所示:
(x,y)=(x1,x2,x3…,xk,y)
相关的变量Y表示我们尝试去理解,分类或者更一般
化的结果。其他的变量x1,x2,x3等则是帮助我们达到目
的的变量。
(二)遗传算法。遗传算法也是计算机科学人工智能领
域中用于解决最优化的一种搜索启发式算法,是进化算法的
一种。这种启发式通常用来生成有用的解决方案来优化和搜
索问题。进化算法最初是借鉴了进化生物学中的一些现象而
发展起来的,这些现象包括遗传、突变、自然选择以及杂交
等。遗传算法在适应度函数选择不当的情况下有可能收敛于
局部最优,而不能达到全局最优。
(三)人工神经网络。人工神经网络在结构上模仿生物
神经网络,是一种通过训练来学习的非线性预测模型,在数
据采掘中可用来进行分类、聚类、特征采掘等操作。人工神
经网络是并行分布式系统,采用了与传统人工智能和信息处
理技术完全不同的机理,克服了传统的基于逻辑符号的人工
智能在处理直觉、非结构化信息方面的缺陷,具有自适应、
自组织和实时学习的特点。
(四)模糊逻辑。模糊逻辑指模仿人脑的不确定性概念
判断、推理思维方式,对于模型未知或不能确定的描述系统,
以及强非线性、大滞后的控制对象,应用模糊集合和模糊规
则进行推理,表达过渡性界限或定性知识经验,模拟人脑方
式,实行模糊综合判断,推理解决常规方法难于对付的规则
型模糊信息问题。在数据采掘中,常用来进行证据合成置信
度计算等。
(五)粗糙集理论。粗糙集理论作为一种数据分析处理
理论,在1982年由波兰科学家Z.Pawlak创立。粗糙集理论
作为一种处理不精确(imprecise)、不一致(inconsistent)、
不完整(incomplete)等各种不完备的信息有效的工具,一方
面得
您可能关注的文档
最近下载
- 造价咨询项目实施阶段全过程造价咨询服务方案造价咨询总体服务方案工作流程重难点分析造价偏差处理.doc VIP
- Three Times’ Beating Monster西游记三打白骨精英语剧本.doc VIP
- 2026国网山东省电力公司高校毕业生提前批招聘笔试模拟试题及答案解析.docx VIP
- 部编版小学四年级道德与法治上册第三单元测试卷(含答案).docx VIP
- 关爱留守儿童教案.pdf VIP
- 医院纪检干部培训课件.ppt VIP
- 教科版四年级上册科学第一单元测试卷(含答案).docx
- 北师大八年级上册生物全册新质教学课件(配2025年秋改版教材).pptx
- 学校传染病防控1案8制(疫情).doc VIP
- 电影剧本精选_灵魂拒葬.pdf VIP
文档评论(0)