- 4
- 0
- 约3.08千字
- 约 5页
- 2019-07-05 发布于山东
- 举报
有害信息发现和过滤技术手段
网络有害信息的发现和过滤技术手段
互联网的快速发展使得人们可以很方便的获得各种信息,与此同时,抵御互联网E的反动、淫秽或色情等有害信息的思想文化渗透成了一个迫切需要解决的问题。
互联网上主要有两类有害信息:
一类是反动、色情、迷信、谩骂和机密等有碍社会公德和不便公开的信息;
另一类是会影响互联网本身和用户计算机安全的不良代码,如特殊控制、计算机病毒等。
网络有害信息的发现机制主要有主动发现和被动防御两种方式。主动发现的方式主要有基于搜索引擎的有害信息主动监测,被动防御的方式以网络内容过滤为主。
1基于搜索引擎的有害信息主动监测技术
采用主动扫描探测方法进行有害信息监控的系统,首先要设计网络蜘蛛模块,实现对html、asp、php和jsp等网页的自动抓取,采用算法实现中文分词,开发信息索引模块,实现对网页的批量和增量索引,并且包含有害信息检索模块,实现有害信息监控及预警功能。
搜索引擎,概括起来其组成大致分为四个部分:
(1)搜索器。主要完成互联网上获取网页和链接结构信息进行分析处理;
(2)索引器。理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表,为用户检索奠定基础。索引器可以使用集中式索引算法或分布式索引算法,
(3)检索器。用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。
(4)用户接口。主要作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要目的是方便用户使用搜索引擎,高效率和多方式地从搜索引擎中得到有效并且及时的信息。
2内容过滤技术
内容过滤技术一般包括名单过滤技术、关键词过滤技术、图像过滤技术、模版过滤技术和智能过滤技术等。
现阶段的内容过滤技术主要分为基于网关和基于代理两种,二者都不能解决的问题是对网络速度的负面影响。而且因为是串行处理,如果网关和代理出现故障都会使网络不通。目前过滤技术大多在网络处理的应用层实现,适应性和安全性较差。基于网络层的实现,最大的挑战有两个方面:首先,应用层分析技术必须全面,因为直接对网络包进行应用需要充分了解需要过滤的所有应用在网络层是如何实现的。其次,是实现兼容性,为实现与操作系统网络底层处理融合,需要充分了解操作系统网络实现机制,甚至替代部分功能,如何不影响操作系统的原有功能是相当困难的,
1(3有害信息监测的核心技术
有害信息监铡的核心技术包括分词技术、文本内容分类关键字识别、变形关键字识别、锚文本分析、有害代码特征识别等
1、分词技术
对网页进行监测时需要进行特征项的提取。对于英文文本,一般足进行词汇的提取,由于词汇之间有天然的分隔符(空格),所以特征项的提取比较容易。中文信息没有这个特点,所以必须采用中文分词技术,把没有词汇标示的中文句子,通过某种特殊的技术切分出词汇。现有的分词算法可分为三大类:基于字符串匹配的分词方法(机械分词方法)、基于理解的分词方法和基于统计的分词方法。基于字符串匹配的分词方法也称为基于词典的分词方法是目前二种分词方法中最快的。影响这种方法分词速度的因素主要有两点:词典的结构以及匹配算法。
2、文本内容分类
文本内容分类是一个广泛研究的课题,它的任务足把一文本内容分类是一个广泛研究的课题,它的任务足把一以通过文本分类的方法,把网页分为有害信息网页和普通信息网页。现有的文本分类方法有支持向量机(SVM)、决策树、Nearest neighbor、algorithm等。这些训练过程的基本思路都是从文章中抽取出一些特征关键词,根据这些关键词在文章中的出现次数对文章进行向量化之后进行训练。
3关键字识别
对关键字词进行过滤,最理想的方法就是先对字串的词法、句法和语义信息进行分析,再根据句义进行取舍。但计算机对语法、语义的自动分析目前仍处于研究阶段,还不成熟。通常的做法是先人工做成一个含有需要过滤词汇的词典,
再根据该词典对用户所发的信息进行检查,即在信息中逐个查找词典中的每一个词。如果找到,有两种方法处理:一是终止查寻,认为该留言不能发表;二是继续查找,直到找出文本中所有的关键词,然后计算该留言中关键词出现的频度,根据事先制定的规则,决定该信息能否通过发表。
4变形关键字识别
为了逃避过滤,不法分子会故意将留言中的关键字进行适当变形后进行提交。关键字常用的变形方法有同音字法、拼音法、字词颠倒法、字词间加其它字符串、以及多种变形混用法等。
由于关键字特征被完全打乱,基本上找不到可以匹配的关键字。因此首先根据关键词识别的情况,就可以判断出属于此类问题。然后只要采用矩阵的转秩算法就可以将这段文字恢复回正常的顺序,最后再进行过滤。
5锚文本分析
每一个超级链接都有一个描述文本即
您可能关注的文档
- 亚莱坞9月招商会议方案.doc
- 研究报告烘焙企业生产部各类单据操作流程标准.doc
- 杨家湾镇教育管理中心继续教育规章制度.doc
- 杨浦渔人码头美食广场策划案.doc
- 液压油型号及各行业用油分析.doc
- 医护人员手部携带细菌导致病人并发感染的预防措施_预防医学论文.doc
- 医院人才柔性引进策略的四维效益.doc
- 医院文化建设的内容与实践.doc
- 依据党的十六大和十七大关于工会法律总结.doc
- 仪征市大仪中心卫生院爱婴医院工作计划.doc
- 03-2 2025年度民主生活会征求意见座谈会主持词.docx
- 03-1 2025年度民主生活会主持讲话提纲.docx
- 02-1 会前学习-《县以上党和国家机关党员领导干部民主生活会若干规定》相关要求.docx
- 在2025年度民主生活会上的总结讲话三篇.docx
- 在2025年度民主生活会上的总结讲话三篇 (3).docx
- 市委宣传部2025年度民主生活会查摆问题整改方案两篇.docx
- 在市行政审批和政务信息管理局机关2026年全体干部政绩观教育大会上的党课讲稿.docx
- X市应急管理局2026年度安全生产监督检查计划.docx
- 2025年度民主生活会领导班子对照检查材料(五个带头)三篇.docx
- 2025年度民主生活会“五个带头”个人对照检查材料三篇.docx
最近下载
- 幼儿彩色描红:数字描红③.doc VIP
- T_HBYY 0066-2024 中药材机械化生产技术规程 柴胡—油菜间作.docx VIP
- 养育照护策略与行动--解读世界卫生组织《儿童早期发展养育照护框架》.docx VIP
- 2025年互联网营销师用户召回中的用户满意度(NPS)与净推荐值分析专题试卷及解析.pdf VIP
- 2025年素质测评考试题库及答案.doc VIP
- 山东省房屋建筑和市政工程施工图设计文件审查要点(2024年版) 第一册 房屋建筑.docx VIP
- 2024市场监管知识培训:价格法知识及价格执法典型案例培训课件.pptx
- T_HBYY 0068-2024 中药材机械化生产技术规程 半夏.docx VIP
- 小学三年级数学除法竖式计算题及答案(300道题).pdf VIP
- 日产300吨环形双膛石灰竖窑方案.doc
原创力文档

文档评论(0)