面向网络舆情检索系统设计研究.docVIP

下载本文档

4
0
约3.55千字
约 8页
2018-06-23 发布于福建
举报
版权申诉

面向网络舆情检索系统设计研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向网络舆情检索系统设计研究

面向网络舆情检索系统设计研究　　摘要：网络舆情具有自由发布、传播和隐蔽等特点，这使得传统的信息检索技术很难直接应用到网络舆情监测系统中。通过深入研究网络舆情的相关技术，提出了网络舆情监测系统框架。围绕着论坛爬虫这一核心技术，分析了论坛网站的结构特点，并构建了论坛网站的层次模型，实现了对不同论坛网站的抓取。这种基于层次模型的爬虫技术兼顾了舆情信息采集的广泛性与特殊性，实验结果表明，该方法能够提高论坛爬虫的效率。　　关键词关键词：舆情监测；信息获取；网络爬虫；文本解析；热点发现　　中图分类号：TP301 文献标识码：A 文章编号文章编号2013）007004002 　　0 引言　　随着Web2.0技术的不断发展和Web终端的迅速普及，越来越多的民众参与到网上交流活动中来，互联网已逐渐成为舆情产生和传播的主要场所。　　舆情是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，由较多群众所表达的信念、态度、意见和情绪等等行为的总和。网络舆情是舆情在互联网上的存在形式，是网民对自己关心或与自身利益紧密相关的各种公共事务所持有的多种情绪、态度和意见交错的总和。其中，最为重要的一种形式是网络言论，它通过网站、新闻组、在线聊天、博客等途径进行传播。网络的开放性和虚拟性决定了网络舆情具有以下特点：　　（1）表达自由。通过论坛、新闻点评和博客网站，网民可以以匿名的方式随时随地发表意见，民意表达畅通无阻。　　（2）传播迅速。网络舆论的形成往往形成于某一突发事件，一个事件的存在加上一种情绪化的意见，就可以迅速地成为一个舆论热点。　　（3）身份隐蔽。网民数量巨大，发言者身份隐蔽，缺少规则限制和有效监督，从而导致网络舆情的监控工作难以有效开展。　　网络舆情监测系统不仅可以减少各级政府部门在网络舆情监测方面的人力和物力方面的投入，还能提高网络舆情监测效果。　　1 舆情检索系统核心技术　　网络舆情监测系统是一个复杂而庞大的系统，涉及很多技术。从总体上看，其核心技术可以分为网络信息采集技术、网络文本信息抽取技术。　　1.1 网络信息采集技术　　目前已有的舆情监测系统主要利用元搜索技术和网络爬虫的方法采集舆情信息。　　元搜索通过将多个单一搜索引擎集成在一起，将用户的检索提问同时提交给多个独立的搜索引擎，同时检索多个索引库，将多个搜索引擎的检索结果进行二次加工，如对检索结果去重、排序、过滤等，其搜索到的结果将比搜索单一搜索引擎的检索结果数量更多，信息更全。同时，采用元搜索技术不需收录整个互联网中的信息就可以获得查询结果，其复杂度较低。　　爬虫（Crawler）是一种按照若干规则，自动抓取万维网信息的程序或者脚本。根据预先设定的一个或若干初始种子URL开始，以此获得初始网页上的URL列表，在爬行过程中不断地从URL队列中获得新的URL，进而访问并下载该页面。页面下载完成之后网页信息抽取程序将页面信息保存，同时将当前页面上抽取到的新的URL，保存到URL抓取队列，直到满足系统停止条件。　　1.2 网页信息抽取及预处理技术　　“信息抽取的作用是从自然语言中抽取出预定好的实体、关系、事件的集合，并用结构化的表示来记录这些信息。”[1]与单纯的文本不一样的是，一个完整的网页通常包含多个内容部分：网页顶部的导航栏、网页正文标题、网页正文信息、相关的链接、广告、版权信息等等。在这些组成部分中，标题与正文通常是用户最关心的部分，多数情况下能够满足用户需要的信息，称为主体信息。其它部分的内容基本与网页内容无关，这些内容是用户可以忽略的次要信息。目前，网页文本信息抽取主要有基于模板的抽取方法和基于网页结构信息的方法。　　2 舆情检索系统架构设计　　2.1 网络舆情监测框架总体模型　　本文所描述的网络舆情监测系统框架总体上分为舆情信息采集层、舆情数据处理层、舆情信息查询与展示3层，它们分别从舆情信息获取、舆情数据处理和舆情数据展示3个层面来描述舆情系统的工作流程，如图1所示。　　2.2 舆情系统具体流程　　由于网络舆情信息分布分散，论坛、博客、微博以及新闻等网站都是舆情信息的主要爆发点，而且各种类型的网站结构各异，传统以单一爬虫采集的方法表现出采集垃圾信息过多、可配置性较差等缺点，因此针对不同类型的站点设计不同的爬虫方法是一种相对明智的做法。　　舆情信息采集层根据用户的监测目标以尽可能小的代价从互联网上尽可能全地下载所有舆情信息；舆情数据处理层将所采集到的舆情信息进行预处理、过滤和分析；舆情信息查询与展示层根据用户提供的启发式信息给出查询结果，根据用户提供的启发式信息自动实时地监测本地信息库，并在发现重要舆情信息时为用户示警。　　3 舆情检索系统模块实现