基于Web数据挖掘网络舆情分析技术研究.docVIP

下载本文档

1
0
约2.77千字
约 6页
2018-07-06 发布于福建
举报
版权申诉

基于Web数据挖掘网络舆情分析技术研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Web数据挖掘网络舆情分析技术研究

基于Web数据挖掘网络舆情分析技术研究　　【摘要】近年来，互联网飞速发展，更多的人参与到公共事件的讨论中，而负面信息的广泛传播威胁了社会的稳定。因此，我们要加强对网络舆情信息的分析，及时对民意做出正确引导。这种情况下，Web数据挖掘技术应运而生。本文首先介绍了Web挖掘技术，其次对基于Web数据挖掘的网络舆情进行分析，最后用实例分析Web挖掘技术是如何提高对舆情的分析能力的。　　【关键词】Web挖掘、网络舆情、分析处理　　0 引言　　网络舆情作为一种十分重要的舆情表现形式，是公众在互联网上对某种社会现象或社会问题公开表达的具有一定影响力和倾向性的共同意见。要加强对网络舆情信息的分析，及时发现舆情热点，及时对民意走势做出正确引导。在此情况下，我们引入Web数据挖掘技术来提高对舆情的处理和分析的效率以及质量，实现网络舆情的分析。　　1 Web挖掘　　Web挖掘是数据挖掘在Web上的应用，它是一种综合使用自然语言处理、数据挖掘、人工智能、机器学习等技术的智能分析方法。根据挖掘对象的不同，Web挖掘可以分为Web内容挖掘、Web结构挖掘和Web使用挖掘三个方面。相比于传统的网络舆情分析方法，Web挖掘可以用更短的时间了解网络舆情的状况和走向以及与之相关联的热点问题，为网络舆情的深入分析提供了技术支持。　　1.1Web内容挖掘。Web内容挖掘是指从Web文档的内容或者Web搜索的结果中获取知识的过程。由于网页的内容错综复杂不易于计算机理解，Web内容挖掘可以有效的对大量的Web文本集合进行总结、分类、聚类、关联分析，以及利用Web文本进行趋势预测。在网络舆情分析中，Web内容挖掘可以发现与事件主题相关的知识内容和语义关联模式。　　1.2Web结构挖掘。Web结构挖掘是指对Web组织结构、Web页面的链接关系等进行挖掘并从中提取出潜在的有用的知识的过程。Web链接信息包括了大量的关于Web内容相关性、质量和结构方面的信息，为网络舆情的分析的提供了重要资源。通过Web结构挖掘，可以获得与舆情主题高度相关的链接以及链接逻辑结构的语义知识，从而帮助舆情分析人员确定重要舆情源和中心页面，有助于深入挖掘舆情信息。　　1.3Web使用挖掘。Web使用挖掘是指通过挖掘Web服务器上的日志信息来提取浏览者的访问记录，获取有价值的信息的过程。这些信息包括网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户信息、注册记录、用户对话或交易信息、用户提问等。通过上述信息可以发现用户的访问模式以及行为偏好，可以更好地理解用户行为从而提供智能化的服务。通过Web使用挖掘，可以确定舆情热点和焦点，从而更准确地预测网民行为。　　2 基于Web数据挖掘的网络舆情分析　　2.1数据层。舆情信息采集的主要任务是提取与热点相关度高的信息，为下面的舆情挖掘和分析做好准备工作。舆情信息采集由以下5步完成。　　（1）确定主题和选择采集地点。为了使采集效果更好，必须以主题的形式对信息需求进行描述。　　（2）利用自动采集软件采集数据。数据采集软件可以自动采集相关信息，并下载到本地进行分析。　　（3）页面分析。采集完页面之后，对页面进行分析，提取重要信息，以便进行后续的过滤和处理。　　（4）URL与主题的相关性判断。在采集过程中增加过滤机制以便提高采集数据的质量。　　（5）页面过滤。对采集页面进行主题相关性评价，去除相关性低的页面，从而提高采集页面的准确性。　　2.2 挖掘层。挖掘层主要由语义信息集成和Web挖掘引擎两部分组成，而且语义信息集成为Web挖掘引擎提供经预处理后的结构化信息，简化并加速了Web挖掘处理。　　（1）语义信息集成。由于数据层的数据来自于不同的媒介，因而在结构和语义上都存在很多的不同，需要对其进行统一处理，并根据需要利用智能信息处理技术进行深入的预分析，从而提高挖掘引擎的效能和健壮性。　　（2）Web挖掘引擎。Web挖掘引擎是网络舆情分析的动力部分，执行Web挖掘任务。它定义了Web挖掘模型语言，选取了合适的挖掘算法和工具。其主要目的是从大量的网络舆情信息中提取规律，并预测事件的发展趋势。可根据网络舆情信息源的特点，从多个方面更加深入的进行挖掘处理。　　2.3分析层。分析层是核心部分，其主要技术应用于对网络舆情信息的智能分析，该分析从六个层面进行，分别是：主体类聚分析、语义关联分析、概念描述、趋势预测分析、主题识别探测和倾向性分析。其功能主要是将经过挖掘处理后的知识进行描述，并生成网络舆情分析报告来辅助决策机构。　　2.4应用层。应用层的出现首先方便了与用户之间的交互。用户可以通过软件来指导网络舆情信息的采集、挖掘和分析处理，从而发现隐藏的规律和发展趋势，同时也更易于舆情信息的理解和分析结果的应用。其次，为后续