- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于若干技术的舆情监控系统的设计与实现.pdf
基于若干技术的舆情监控系统的设计与实现
徐 宁
(同济大学软件学院 上海 201800)
[摘 要]通过有针对性地对互联网信息进行过滤、整理、分析,及时发现危害国家安全、扰乱社会秩序、图谋实施犯罪等有价值的信息,从而及时预防、制止
不法活动的发生,有效打击犯罪,为人民生活创造良好的社会环境。本文着重对舆情系统中相关技术进行细致的研究,实现网络舆情的系统监控,及时准确地有针
对性的获取相关信息,从而发现、掌握特定的动态信息,为国家决策部署提供有力的依据
[关键词]爬虫;中文分词;信息指纹;信息抽取
中图分类号:,TP311.52 文献标识码 :A 文章编号:1009—914X(2015)05—0128—01
引言 2.2中分分词
随着网络技术的推陈出新,除了网络新闻、网络论坛等传统应用外,又出现 现有的分词算法可分为三大类[2o]:基于字符串匹配的分词方法、基于统计
了博客(含微博)、维基、聚合新闻、等新形态的信息交互模式。范围广、交互性 的分词方法和基于理解的分词方法。
强、更新速度快的互联网传播从根本上改变了传播者与受传者之间的关系,是 1、基于字符串匹配的分词方法
对传统新闻媒介的传播模式的解构和颠覆。互联网信息内容庞杂多样,既有大 基于字符串匹配的分词方法,又叫做机械分词方法,它是按照一定的策略
量进步、健康、有益的信息,也有不少反动、迷信、黄色的内容。互联网作为一块 将待切分的汉字 串与分词词库中的词条进行匹配,若在词库 中找到相应的词
正在加速膨胀的思想阵地 ,加上其虚拟性、隐蔽 陛、发散性、渗透性和随意性等 条,则匹配成功。按照扫描的方向不同,基于字符串匹配的分词方法可分为正向
特点,越来越多的人们愿意通过这类渠道表达自己的个人想法 ,因此网络舆情 匹配分词方法和逆向匹配分词方法 ;按照不同长度优先匹配的情况,又可分为
的爆发将以“内容威胁”的形式逐渐对社会公共安全形成威胁。有关如何控制、 最大匹配和最小匹配。 ‘
规范互联网信息,成为技术难点。 2、基于统计的分词方法
1.舆情监控系统架构设计 基于统计的分词方法的基本原理:从形式上看,词是稳定的字的组合,因此
1.1舆惰监控系统工作流程 在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与
1、给爬虫配置爬取网站的地址 、爬虫参数,如:要爬取的网站入口、轮循间 字相邻共现的频率或概率能够较好地反映成词的可信度。
隔,爬取线程、爬取深度等参数。 3.基于理解的分词方法
2、爬虫根据地址爬取数据 ,这时的数据缓存在爬虫服务器中,成为待处理 基于理解的分词方法是通过计算机模拟人对句子的理解,达到识别词的效
数据。 果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信
3、中文分词 息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控
4、信息抽取 部分。
5、提取信息指纹去重 (1)信息抽取
6、语意指纹提取 在互联网中,信息的数量很多,但是这些信息的数据质量相对较低,一般只
7、摘要生成 能用于浏览或者搜索。我们需要把这些信息提取出来,构成结构化的信息,把他
8、索
文档评论(0)