基于WEB数据挖掘网络舆情分析研究.docVIP

下载本文档

4
0
约6.03千字
约 13页
2018-08-28 发布于福建
举报
版权申诉

基于WEB数据挖掘网络舆情分析研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于WEB数据挖掘网络舆情分析研究

基于WEB数据挖掘网络舆情分析研究　　一、网络舆情　　网络舆情是由于各种事件的刺激而产生的通过互联网传播的人们对于该事件的所有认知、态度、情感和行为倾向的集合。网络舆情形成迅速，对社会影响巨大。随着因特网在全球范围内的飞速发展，网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”，网络成为反映社会舆情的主要载体之一。网络环境下的舆情信息的主要来源有：新闻评论、BBS、博客、聚合新闻（RSS）。网络舆情表达快捷、信息多元，方式互动，具备传统媒体无法比拟的优势。　　网络的开放性和虚拟性，决定了网络舆情具有以下特点：　　（一）直接性，通过BBS，新闻点评和博客网站，网民可以立即发表意见，下情直接上达，民意表达更加畅通；　　（二）突发性，网络舆论的形成往往非常迅速，一个热点事件的存在加上一种情绪化的意见，就可以成为点燃一片舆论的导火索；　　（三）偏差性，由于发言者身份隐蔽，并且缺少规则限制和有效监督，网络自然成为一些网民发泄情绪的空间。在现实生活中遇到挫折，对社会问题片面认识等等，都会利用网络得以宣泄。因此在网络上更容易出现庸俗、灰色的言论。　　二、数据挖掘技术　　数据挖掘（Data Mining，DM），又译为资料探勘、数据采矿。它是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘是目前人工智能和数据库领域研究的热点问题。数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策。知识发现过程由以下三个阶段组成：1.数据准备，2.数据挖掘，3.结果表达和解释。数据挖掘可以与用户或知识库交互。　　（一）决策树。决策树是数据挖掘分类算法的一个重要方法。在各种分类算法中，决策树是最直观的一种。每个决策树都表述了一种树型结构，它由它的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。这个过程可以递归式的对树进行修剪。当不能再进行分割或一个单独的类可以被应用于某一分支时，递归过程就完成了。另外，随机森林分类器将许多决策树结合起来以提升分类的正确率。　　决策树同时也可以依靠计算条件概率来构造。　　决策树如果依靠数学的计算方法可以取得更加理想的效果。数据库已如下所示：　　（x，y） = （x1，x2，x3…，xk，y）　　相关的变量 Y 表示我们尝试去理解，分类或者更一般化的结果。其他的变量x1，x2，x3 等则是帮助我们达到目的的变量。　　（二）遗传算法。遗传算法也是计算机科学人工智能领域中用于解决最优化的一种搜索启发式算法，是进化算法的一种。这种启发式通常用来生成有用的解决方案来优化和搜索问题。进化算法最初是借鉴了进化生物学中的一些现象而发展起来的，这些现象包括遗传、突变、自然选择以及杂交等。遗传算法在适应度函数选择不当的情况下有可能收敛于局部最优，而不能达到全局最优。　　（三）人工神经网络。人工神经网络在结构上模仿生物神经网络，是一种通过训练来学习的非线性预测模型，在数据采掘中可用来进行分类、聚类、特征采掘等操作。人工神经网络是并行分布式系统，采用了与传统人工智能和信息处理技术完全不同的机理，克服了传统的基于逻辑符号的人工智能在处理直觉、非结构化信息方面的缺陷，具有自适应、自组织和实时学习的特点。　　（四）模糊逻辑。模糊逻辑指模仿人脑的不确定性概念判断、推理思维方式，对于模型未知或不能确定的描述系统，以及强非线性、大滞后的控制对象，应用模糊集合和模糊规则进行推理，表达过渡性界限或定性知识经验，模拟人脑方式，实行模糊综合判断，推理解决常规方法难于对付的规则型模糊信息问题。在数据采掘中，常用来进行证据合成置信度计算等。　　（五）粗糙集理论。粗糙集理论作为一种数据分析处理理论，在1982年由波兰科学家Z.Pawlak创立。粗糙集理论作为一种处理不精确（imprecise）、不一致（inconsistent）、不完整（incomplete）等各种不完备的信息有效的工具，一方面得益于他的数学基础成熟、不需要先验知识；另一方面在于它的易用性。由于粗糙集理论创建的目的和研究的出发点就是直接对数据进行分析和推理，从中发现隐含的知识，揭示潜在的规律，因此是一种天然的数据挖掘或者知识发现方法，它与基于概率论的数据挖掘方法、基于模糊理论的数据挖掘方法和基于证据理论的数据挖掘方法等其他处理不确定性问题理论的方法相比较，最显著的区别是它不需要提供问题所需处理的数据集合之外的任何先验知识，而且与处理其他不确定性问题的理论有很强的互补性。　　（六）