网站大量收购闲置独家精品文档,联系QQ:2885784924

网站内容拔测系统实现技术分析.docxVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

??

?

??

网站内容拔测系统实现技术分析

?

?

?

?

?

??

?

?

?

苏娜工业和信息化部通信计量中心工程师

谢谦工业和信息化部通信计量中心助理工程师

刘岩工业和信息化部通信计量中心工程师

薛涛工业和信息化部通信计量中心工程师

摘要:网站内容拨测系统通过采集网页内容,分析网页内的网址、文本、图片、音视频等内容,及时发现网站,网页中存在的不良内容,同时通过对网站标题关键字匹配、网站备案信息比对和网站协议类型分析等方法对网站进行分类。拨测系统对采集的网页内容和用户访问行为的分析,可为互联网行业发展趋势分析和预测提供数据支撑,为企业的精细化运营提供强有力的技术手段。

关键字:爬虫,软探针,旁路,网关过滤,网站分类

为净化社会环境、保护下一代健康成长、推动互联网络产业健康发展,政府监管部门和互联网站接入服务单位有责任和义务通过强化技术手段,建立网站涉黄内容的发现处置机制,为净化网络环境做好基础工作,为社会进步和经济发展做好服务。网站内容拨测系统可通过模拟用户访问网络的行为,采集网站内容,是对网站内容进行监测的基本技术手段。

1网站内容拔测系统框架

网站内容拨测系统通过采集网页内容,分析网页内的网址、文本、图片、音视频等内容,及时发现存在不良内容的网站/网页,并将拨测结果提交相应管理部门。网站内容拨测系统的建设主要可以分为数据采集和数据分析处理两大部分。数据采集模块依据拨测策略从网站上采集相关内容信息对发现的涉黄信息根据告警机制对用户进行告警提示或屏蔽,应支持HTTP和WAP协议。数据分析处理系统可根据采集到的网站内容对网站内容进行分析过滤,同时可对网站类别进行分类,分析用户访问网站行为习惯,可为运营商的精细化运营提供有力的支撑,如图l所示。

2主要数据采集技术手段

为满足政府监管和行业自律的要求,网站内容拨测系统须拨测的网站应包括企业自有业务网站、合作业务网站、业务推广渠道网站和企业提供接入的网站(含下级接人服务商接入的网站)。政府监管部门和接人服务商可根据管理需求和网站接人类型,采取不同的数据采集方法。下面主要针对目前比较常用的爬虫、软探针、旁路和网关过滤四种数据采集技术手段进行分析和比较。

2.1爬虫技术

网络爬虫是一个自动提取网页的技术,从In-temet网上下载网页,在应用爬虫技术进行网站内容拨测时,可通过对lP地址范围和访问深度的限定,使网络爬虫程序从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放人队列,直到满足系统的停止条件。网络爬虫能够对于抓取回来的网页根据不同审计条件,能够抓取静态网页、动态网页等相关内容,能够进行图片,MP3、Flash、视频等文件的抓取,并根据类型进行归类汇总,以网页快照的方式展示抓获内容,实现网站内容的自动识别、自动分类、自动报警。

网络爬虫使用多线程技术,占用IDC机房带宽,对IDC机房有访问有一定影响,但通过DNSCache技术,减少爬虫对DNS的访问频率,可避免DNS成为网络瓶颈,提高抓取速度,如图2所示。

爬虫技术的主要特点为根据审计条件抓取网页的相关内容,对于一些大网站及静态网页为主的抓取内容,采取深度策略抓取,便于在最短时间内获得最大量内容;对于一些动态网页或小网站,采取广度策略抓取,同时对多个网站进行抓取,减小对各个小网站的压力,避免造成恶意攻击。缺点主要表现为:(1)对于带账号密码才能访问的BBS论坛现阶段的网络爬虫技术还不能实现内容抓取,目前只能通过匿名访问方式获取数据;(2)根据网络覆盖率大小,对搜索服务器的性能和数量都有比较高的要求;(3)占用IDC机房带宽,对IDC机房有访问有一定影响;(4)通过网站页面中的超链接进行网络搜索,难以发现网络“孤岛”,如图3所示。

2.2软探针方式

软探针技术主要是通过在各种Web服务器上做插件,接收和过滤用户的各种get(浏览)和post(发帖)请求,获取网页内容,并能够完成对BBS、基于Web的聊天室、SP短信等交互发布信息的栏目进行审计和过滤,并可以实现对上述信息的全量获取;同时可以对获取的信息根据需要进行分类和记录。软探针技术的实现方式如图4所示,其技术主要特点表现为:(1)对指定的敏感词进行过滤;(2)记录BBS、论坛、自写短信等发布的信息;(3)能够对账号、信息、IP地址进行跟踪追查。通过获取内容的整理和汇总,能够对站点发帖规律、站点信息被过滤情况、站点受欢迎程度等通过报表形式体现出来,以及对于同一个用户账号在一段时间内发布的帖子、发送的短信及这些信息的发送时间、发送IP地址等信息进行汇总,对于不同BBS、论坛中的同名帖子进行汇总。

软探针技术的优点主要表现为:(1)通过Web服务器插件方式能够接收和过滤用户的各种get(浏览

您可能关注的文档

文档评论(0)

136****6121 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档