网络舆情信息处理系统研究与实现.docVIP

网络舆情信息处理系统研究与实现.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络舆情信息处理系统研究与实现

网络舆情信息处理系统研究与实现   [摘要]目前,网络舆情的收集和分析已成为相关部门获取民众思想和建议的一个有效手段,本文通过网络舆情分析的需求,提出了利用中文分词的基础上统计帖子的词频信息,并在获取热点话题的基础上给出了基于网络舆情技术的网络舆情信息处理系统模型,文章的最后通过实验验证了该模型的有效性和合理性。   [关键词]网络舆情;中文分词;热度评价;系统模型   [中图分类号]TP[文献标识码]A   [文章编号]1007-4309(2012)02-0114-1.5   网络舆情是指网民通过BBS网站上的文章、新闻和在线交流等方式所传递、表达的情绪和意见,网络舆情实质上代表了公众对自己关注或与自身利益紧密相关的各种公共事务所持有的各种情绪、态度和意见交错的总和。由网络具有广阔的开放性和舆论的自由性,能够反映当前的新闻热点和当前民众最关心的话题。   一、中文分词及关键词提取技术   网络热点话题分析的过程主要分为两个步骤:网络热点话题提取和热度评价。网络热点话题的获取是指从大量的论坛帖子中发现热点话题并利用关键词定位到具体的帖子,而具体热点话题的排序还需要按照一定的评价方法来对其进行热度评价。本文采用的多关键词联合的BBS热点话题分析方法是基于机械分词法,机械分词法又叫基于字符串匹配的分词方法,能够结合词法、语法和语义信息分析的分词技术来对BBS帖子内容进行分词,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行区配,若在词典中找到某个字符串,则匹配成功。机械分词法具有原理简单、实用、易实现等特点,比较适用于语句相对简洁的BBS文本处理。   二、热点话题的获取   热点话题的获取是指从大量的论坛帖子中发现热点话题并利用关键词定位到具体的帖子,而热点话题的具体排序情况还需要按照一定的评价方法来对其进行热度评价。   热点话题获取是对所有帖子内容中出现的词语进行的一个统计,这种方法所发现的话题基本能够反映出当前的热点问题,但由于论坛是基于发帖人和回帖人的观点的,还有其他的一些例如帖子的浏览数、回复数、是否是精华帖等因素,所以具体的热度还有待于进一步的计算。   三、系统模型的关键技术   信息的采集。在信息采集模块中需要完成网络论坛WEB页面的抓取。WEB页面的抓取类似于搜索引擎中的页面爬行机器人。首先,在指定一个或多个网络论坛中收集信息,在收集的信息通过Web信息采集器,从一个初始采集状态开始,将这些URL全部放到一个有序的待采集队列里,然后按次序取出URL,获取它所指向的页面,返回页面的HTML文件。通过页面间的链接关系,获取新的页面的URL,并将它们放到待采集的队列里。重复上述过程,直到整个网站的全部网页都被采集完为止,也可以根据用户的需要下载一定层数的网页。   信息的预处理。在信息的预处理中需要完成在WEB页面抓取之后的页面进行信息的除嗓和关键词提取操作。首先,在WEB页面抓取下来的页面里包括了很多对用户没有任何意思的信息,系统将通过页面净化模块将这些信息进取去除,再通过DOM树技术将该页面中分析出的关键词或其他对用户有意思的信息进行进取,最后通过系统的处理剩下的都是系统认为对用户有意思的信息。   信息的分析存储。在信息的分析存储处理模块中系统将信息预处理而得到的信息进行分析存储管理。首先,本系统将利用舆情分析中文本分类和聚类等方法对预处理后的素材信息进行分析,将这些信息进行分类汇总,最后通过系统选定的数据库管理系统将这些分类汇总的信息进行数据库后台信息存储管理,最终为使用该系统的用户提供网络舆情分析提供信息资源。   四、系统的主要核心模块   信息的采集模块。舆情信息采集是整个系统的信息源。Web页面包含大量的数据信息,可以看作是一个巨大的数据库。但由于Web页面的数据是半结构化或者非结构化的,加上Web页面极快的增长速度,其信息还在不断地发生更新,作为一个动态性极强的信息源,对Web页面进行信息采集是比较复杂的,在本系统中信息的采集流程如图1所示。      在本模块中,最为关键的就是网络爬行器的设计与使用。常用的网络爬行器的目标是尽可能多地采集信息页面,并不太在意页面采集的顺序和被采集页面的相关主题,这样消耗了很多的系统资源和网络带宽,但并没有换来采集页面的较高利用率。为了解决这一问题,本系统使用定向抓取相关网络资源的主题网络爬行器。主题网络爬行器就是根据一定的网页分析算法过滤与主题无关的链接,保留与主题相关的链接并将其放入待抓取的URL队列中,按照事先给出的主题,分析超链接和已经下载的网页内容,预测下一个待抓取的URL以及当前网页的主题相关度,保证尽可能多的爬行,下载与主题相关的网页,尽可能少地下载无关网页。   信息的预处理。与普通的文本

文档评论(0)

fangsheke66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档