- 1、本文档共52页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
chap.9内容安全;本章内容要点;在互联网传播的信息内容中,面临的不良和非法信息威胁主要有如下三类。
(1)垃圾信息,主要是指隐藏在文本、评论、弹幕、邮件等中的各种无用、不需要信息,包括:垃圾文本,垃圾广告、垃圾邮件等;
(2)色情信息,主要是指有性诱惑、性暗示的和涉黄露点的文字、图片和视频等信息;
(3)涉政信息,指危害国家安全,影响社会稳定,反党反政府的谣言、虚假信息和暴力恐怖信息等。
信息内容安全对网络信息传播进行管控,对于加强互联网内容建设、营造清朗的网络空间、保障社会的和谐稳定具有重要意义。;1.信息获取技术
分为主动获取技术和被动获取技术。
主动获取技术通过向网络注入数据包后的反馈来获取信息,特点是接入方式简单,能够获取更广泛的信息内容,但会对网络造成额外的负担。
被动获取技术则在网络出入口上通过镜像或旁路侦听方式获取网络信息,特点是接入需要网络管理者的协作,获取的内容仅限于进出本地网络的数据流,但不会对网络造成额外流量。;2.信息内容识别技术
信息内容识别是指对获取的网络信息内容进行识别、判断、分类,确定其是否为所需要的目标内容,识别的准确度和速度是其中的重要指标。主要分为文字、音频、图像、图形识别。
目前文字识别技术已得到广泛应用,音频识别也在一定范围内使用,但图像识别的准确性还有待进一步提高离实际应用尚有一定的距离。;3.控制/阻断技术
对于识别出的非法信息内容,阻止或中断用户对其访问,成功率和实时性是两个重要指标。
从阻断依据上分为基于IP地址阻断、基于内容的阻断;从实现方式上分为软件阻断和硬件阻断;
从阻断方法上分为数据包重定向和数据包丢弃。
具体地,在垃圾邮件剔除、涉密内容过滤、著作权盗用的取证、有害及色情内容的阻断和警告等方面已经投入使用。;4.信息内容分级
网络“无时差、零距离”的特点使得不良内容以前所未有的速度在全球扩散,网络不良内容甚至还会造成青少年生理上的伤害。应该建立自己的网上内容分级标准,让父母保护他们的孩子远离互联网上有潜在危害的内容。;5.图像过滤
一些不良网络信息的提供者采取了回避某些敏感词汇,将文本嵌入到图像文件中,或直接以图像文件的形式出现等方法,从而可以轻易地通过网络过滤和监测系统。为此,需要对网页中的图像进行分析和理解实现网络过滤。目前这一技术还没有达到实用系统的要求。;6.信息内容审计
信息内容审计的目标就是真实全面地将发生在网络上的所有事件记录下来,为事后的追查提供完整准确的资料。通过对网络信息进行审计,政府部门可以实时监控本区域内Internet的使用情况,为信息安全的执法提供依据。虽然审计措施相对网上的攻击和窃密行为是有些被动,它对追查网上发生的犯罪行为起到十分重要的作用,也对内部人员犯罪起到了威慑作用。
采用的主要技术是以旁路方式捕获受控网段内的数据流,通过协议分析、模式匹配等技术手段对网络数据流进行审计,并对非法流量进行监控和取证。;9.1.3信息内容识别原理;2.图像内容识别
最初的不良图片/视频识别,主要是通过建立不良图片/视频的MD5种子库,并用将户新上传的图片/视频方式进行比较,如果一致,则判断为不良内容。MD5比对,本质上是把图像当作一个二进制文件,通过比对二进制内容来判断是否违规,这种方式忽略了图像本身的表征属性,其短板是无法解决同一张图的变种问题。;3.语音内容识别
音频的特点是信息隐蔽和识别都很困难。传统利用音频指纹等几何校准匹配的方法,可以有效被动拦截互联网的有害内容。而随着技术的不断演绎和迭代,针对音频的识别也变被动为主动,例如:获取到音频后通过音频分类将里面可能含有色情的声音识别出来,之后利用语音切分技术提取有效的语音部分;或是,利用说话人识别技术判断得到的音频是否含有特定人物和语种信息,以决定该音频是否含有不良信息;再有就是利用语音转文字技术,将听见转化为看见,并且实现将段、句、字、音素的文本信息和原始音频进行对齐,得到整段音频的对应文字信息,再通过文本安全技术就可以识别了。;9.2.1文本内容安全算法;2.词频计算
在文档中,并不是每个词对于文章含义的贡献都是一样的,而字符串匹配的方法并未考虑这一点。因此,要设计算法计算文章中词的贡献度,将最能表达文章含义内容的词(关键词)筛选出来再进行比对。TF-IDF词频计算一种解决方案。
;3.潜语义计算
潜语义分析(LatentSemanticAnalysis,简称LSA/LSI)试图去解决这个问题,它把词和文档都映射到一个潜在语义空间,在这个空间内进行计算分析,取得良好的效果。潜语义空间的
您可能关注的文档
- 《电机学》课件_2.8 直流电动机的运行特性.ppt
- 《电动汽车高压安全及防护》课件_第6章.pptx
- 《电动汽车高压安全及防护》课件_第3章.pptx
- 《机电一体化技术》课件_第二章 机电一体化系统模型.pptx
- 《PCB设计与制作》课件_项目7 单面和双面PCB的制作.pptx
- 《电动汽车高压安全及防护》课件_第8章.pptx
- 《机电一体化技术》课件_第四章 4.2 机电一体化系统中常用的传感器.pptx
- 《PCB设计与制作》课件_项目3 呼吸灯单面混装PCB设计.pptx
- 《电动汽车高压安全及防护》课件_第4章.pptx
- 《光纤通信》课件_第1章:绪论.pptx
- 《航空发动机制造中热声无损检测技术的原理与应用》教学研究课题报告.docx
- 2 《农村一二三产业融合发展中的农业保险制度创新研究》教学研究课题报告.docx
- 初中化学课程中实验技能与科学素养的培养教学研究课题报告.docx
- 心理健康教育在学生成长中的作用分析教学研究课题报告.docx
- 《新型冠状病毒肺炎康复患者心理干预中护理人员的角色与作用研究》教学研究课题报告.docx
- 校园噪音对校园教育创新机制影响及噪声污染防治策略教学研究课题报告.docx
- 高中生社团经费使用监督体系构建与实践教学研究课题报告.docx
- 小学体育课程中运动规则与竞技精神教育研究教学研究课题报告.docx
- 《中医食疗对慢性肾脏病营养不良患者生活质量的影响及机制探讨》教学研究课题报告.docx
- 高中体育校本课程开发与体育精神教育实践教学研究课题报告.docx
文档评论(0)