基于搜索引擎的校园网站信息监控系统的设计与实现.pdf

基于搜索引擎的校园网站信息监控系统的设计与实现.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于搜索引擎的校园网站信息监控系统的设计与实现 基于搜索引擎的校园网站信息监控系统的设计与实   摘要:互联网的发展为知识与信息的传播提供了前所未有的便利,但同时也为不良信 息的传播提供了条件。高校作为互联网应用与研究的前沿阵地,信息安全尤为重要。为了 防止校园网上非法信息的传播,实现对网上信息内容的主动监管,保护网络信息的安全, 本文设计并实现了基于搜索引擎的网站内容监控系统,它主动地扫描校园网网站,获取网 站内容信息,利用关键词匹配技术及时发现包含敏感词的网站,并将结果及时提供给网络 管理员。通过使用本系统有效地防止了非法信息在校园网中的传播,实现了对校园网站的 主动监控与管理。   关键词:信息安全;内容监控;校园网络;分词处理;搜索引擎   中图分类号:TP393.18 文献标识码:B 文章编号:1673-8454(2011)15-0034-03      一、高校信息安全的现状   随着高校信息化建设的快速发展,校园网络已遍及学校的各个部门,一方面校园网站 的数量迅速增长,精品课程等网站越来越多,网络已成为师生工作、学习、生活不可缺少 的一部分;另一方面学校通过校园网站发布教学安排、学生管理、科研动态诸多方面的信 息,学校的各项工作都与其形成密切的关系。然而网站信息安全管理却不容乐观,信息安 全形势日趋严峻,由于网站大多是分散式的管理,网站管理人员安全防范意识不强,给计 算机病毒和网络黑客以可乘之机,有的部门主页多次受到黑客的攻击,网页上的数据被更 改,扰乱了学校正常的工作秩序。学校的电子留言板、公告板方便了师生交流,但同时也 为非法言论等信息提供了交流的场所,一些不法分子利用网络传播小道消息,向高校散布 有害信息,扰乱校园秩序。有的学生因在平时的学习、生活中受到一些委屈,就随意在网 站中发表一些十分偏激的言辞, 或对学校老师进行人身攻击, 损坏了学校形象,因此网 站信息安全监控成为亟待解决的问题。   目前由于缺乏成熟的、针对特定网络应用下的信息内容监控系统,对网站内容的检查 都是通过人工来完成的。但是这种方法不能做到实时地监控,并且效率低下,无法适应网 络发展的需要。人们迫切需要计算机辅助来进行网络内容的自动监控。   二、校园网络信息内容监控的现状与分析   目前对网络信息内容的监控主要是使用网络安全审计系统,通常部署在校园网络出口 ,通过对网络出口链路数据的镜像或者分光后从旁路接入审计系统,实时捕获网络数据包 ,还原并分析数据包的内容,可以实现对敏感关键字、非法URL 的监控与过滤。这一类型 的监控系统可以及时发现包含有非法词汇的网站,及时屏蔽包含该词汇的网页,使用户免 受非法词汇的影响。但这种监控的缺点是它是一种被动的监控模式,只有通过出口访问的 内容中包含敏感词汇才能被监控到,并且无法得到非法内容的来源,不能对整体的网络和 特定网站中的网页信息进行监控。   基于这种现状,笔者设计实现了一个基于搜索引擎的网站内容监控系统。它主动扫描 整个网站,获得网站的网页内容,并对内容进行预处理分析,利用关键词匹配技术对结果 进行匹配,及时发现网站中包含的非法词汇,并将结果提供给管理员,方便管理员对网络 内容进行监控,还可以与报警系统相关联实现邮件或者短信息报警,使网络管理员在第一 时间采取相应的处理措施,及时阻止这些内容的传播。从而实现对网站信息主动、实时的 监控。   三、本系统的设计与实现   网站内容监控的过程其实就是对校园网站内容进行搜索、分析、比较的过程。首先要 获取被监控网站的网页作为数据源,然后对网页数据内容进行分析预处理,为搜集到的网 页建立索引数据库和分词库信息。通过与用户设定的敏感关键字或 URL 链接信息进行对比 匹配,从分词库中查找到包含敏感关键词的网页 URL ,再通过网页索引在网页信息数据库 中查找并返回整个网页的全部内容。通过以上分析与研究,网站信息监控系统主要由以下 五个功能模块组成:网站内容采集模块、网页分析预处理模块、自动分词模块、查询匹配 模块、结果反馈模块。为了提高搜索运行的效率本系统使用 C++多线程设计完成。处理流 程如图 1 所示。   1 .网站内容采集模块   采集模块主要完成获取网页内容、分析链接、存储网页信息的功能。采集模块的核心 是网页抓取程序,网页抓取的过程是从 URL 库(初始为用户指定的 URL 集合)获得输入 ,解析URL 中标明的 Web 服务器地址、与服务器建立连接、构造请求消息体并发送给服 务器、获取服务器返回的网页信息,最后将获得的网页数据存储在网页信息数据库。我们 使用网页抓取程序自动对指定 IP 范围内的网站进行遍历,主动发现

文档评论(0)

qicaiyan + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档