- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于若干技术舆情监控系统设计与实现
基于若干技术舆情监控系统设计与实现
[摘要]通过有针对性地对互联网信息进行过滤、整理、分析,及时发现危害国家安全、扰乱社会秩序、图谋实施犯罪等有价值的信息,从而及时预防、制止不法活动的发生,有效打击犯罪,为人民生活创造良好的社会环境。本文着重对舆情系统中相关技术进行细致的研究,实现网络舆情的系统监控,及时准确地有针对性的获取相关信息,从而发现、掌握特定的动态信息,为国家决策部署提供有力的依据。
[关键词]爬虫;中文分词;信息指纹;信息抽取
中图分类号:TP311.52 文献标识码:A 文章编号:1009-914X(2015)05-0128-01
引言
随着网络技术的推陈出新,除了网络新闻、网络论坛等传统应用外,又出现了博客(含微博)、维基、聚合新闻、等新形态的信息交互模式。范围广、交互性强、更新速度快的互联网传播从根本上改变了传播者与受传者之间的关系,是对传统新闻媒介的传播模式的解构和颠覆。互联网信息内容庞杂多样,既有大量进步、健康、有益的信息,也有不少反动、迷信、黄色的内容。互联网作为一块正在加速膨胀的思想阵地,加上其虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的人们愿意通过这类渠道表达自己的个人想法,因此网络舆情的爆发将以“内容威胁”的形式逐渐对社会公共安全形成威胁。有关如何控制、规范互联网信息,成为技术难点。
1.舆情监控系统架构设计
1.1舆情监控系统工作流程
1、给爬虫配置爬取网站的地址、爬虫参数,如:要爬取的网站入口、轮循间隔、爬取线程、爬取深度等参数。
2、爬虫根据地址爬取数据,这时的数据缓存在爬虫服务器中,成为待处理数据。
3、中文分词
4、信息抽取
5、提取信息指纹去重
6、语意指纹提取
7、摘要生成
8、索引入库
9、聚类、趋势分析
10、提供WEB、提供客户检索服务
1.2舆情监控系统架构
信息层:分布在境内外的互联网信息。如:QQ群、动态网、新闻、博客、论坛。
采集层:爬虫通过分布式并发采集、多线程采集快速采集互联网舆情信息。
加工层:分词、信息抽取、提取信息指纹去重、语意指纹提取、摘要生成。
数据存储中心:海量信息分布式存储和并发存取。
用户层:提供模糊检索、高级检索等多种特征检索、智能检索方式、聚类和趋势分析。
2.关键技术实现
2.1爬虫策略的革新
本系统采用多种机制革新爬虫工作方法,要求舆情能在网络舆情产生之后第一时间采集下来。同时采取多种机制保证爬虫爬取数据的完整性,保证采集数据的完整性,做到不漏采集、不重复采集、避免死链采集,从而保证及时采集。
1、广度优先采集
爬虫支持任意数量和深度的抓取,采用广度优先策略。广度优先搜索策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。
2、快速爬取
爬虫根据网页链接爬取数据,通过精确配置爬虫抓取模板参数,只采集指定层级的网站链接,实现爬虫资源的最大优化。
爬虫在数据爬取的过程当中,可以自定义针对特定站点的爬取多少及爬取的速度进行合理调配,这样,可以最大限度地使资源最大化。
3、按照模板爬取
要求爬虫针对常见的网站论坛使用不同的爬去模板进行爬取数据,有针对性的优化爬虫效率。
为了更加合理地使爬虫爬取数据,针对各不同的站点,定义了不同级别的爬虫模板,可以根据站点的优先级,通过不同的模板设置更新频率,
4、分布式爬取
针对不同的类型的网站使用多个爬虫分别爬取数据,录入更多带宽和硬件资源,分配给更新比较快的负责爬取论坛的爬虫。
5、优先级爬取
不同类别的网站使用不同的优先级进行爬取数据。
根据不同的站点设置紧急、较急、一般等级别,可以设置不同的站点抓取站点的导数,针对易发站点可以实时做到分钟级的更新。
2.2中分分词
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于统计的分词方法和基于理解的分词方法。
1、基于字符串匹配的分词方法
基于字符串匹配的分词方法,又叫做机械分词方法,它是按照一定的策略将待切分的汉字串与分词词厍中的词条进行匹配,若在词厍中找到相应的词条,则匹配成功。按照扫描的方向不同,基于字符串匹配的分词方法可分为正向匹配分词方法和逆向匹配分词方法;按照不同长度优先匹配的情况,又可分为最大匹配和最小匹配。
2、基于统计的分词方法
基于统计的分词方法的基本原理:从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好地反映成词的可信度。
3、基于理解的分词方法
文档评论(0)