内容安全技术.pptVIP

  1. 1、本文档共40页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
内容安全技术

内容分类 腾钉寞捉叙祈巡余币屯霞挥壹肥码娶饯他漂搬绳赁汐赔膜按雍谷杰范衷眩内容安全技术内容安全技术 ? 内容分类是指过滤系统检查流经的文本、根据特征数据库判断文本属于哪一类文本的操作。 ? 在向量空间模型中一般通过计算流经文本特征向量(W1,……,WN)和目标特征向量(W1*,……,WN*)的相关系数来判断类别:当相关系数大于一个阈值时,可判断流经的文本属于目标特征(W1*,……WN*)对应的哪一类文本。 内容分类 乖渺涅呆膜殃役午挝陨吻郸瞎腮诅泰等蓝涉纷窄甜撂其疑猛汕猴辽胺及糟内容安全技术内容安全技术 话题发现和跟踪 话题识别与跟踪技术是一种能自动 确定新闻信息流中话题结构的技术。它主要以网络新闻。广播和电视信息流为处理对象,将内容按话题区分,监控对新话题的报道,并将涉及某个话题的报道组织起来,以某种需要的方式呈献给用户。 肩缮敢础焕密撕壤琐苍几骆敦谐旺洪羹裴循牧纪方咱弹朽魄陈咖货悔枉豪内容安全技术内容安全技术 话题发现和跟踪 分词报道切分 新事件识别 报道关系识别 话题识别 话题跟踪 蹭棱网脑垮桂帛杏罗喀鲤笋峭盔阴饶否钩干荔丁奥丛爱虫定诺斩闭春胖讼内容安全技术内容安全技术 报道切分是指将从一个信息源获得的语言信息流分割为不同的新闻报道。一个新闻栏目通常包括很多条新闻报道,而这些新闻条目之间一般有一定的分割表示,或者在内容编码上有一些变化,这些都是分割的依据。 报道切分 打蚀折舰剐悠芽庭赂耀陀妖浴遁疆劫家狗与柑喇眩接裤啸屑套巫编击骡拴内容安全技术内容安全技术 新事件识别 新事件识别的目标是识别出以前没有报道过的新闻话题。当前,新事件标识技术采用了类似与文本过滤的方法,它一般也用特征提取算法的到事件报道的特征向量,这些特征向量组成了事件特征库。对于一个新报道,识别系统计算它的特征向量并比较特征库中的向量,确定报道的事件是否已经存在。再不存在的情况下,系统讲这篇报道描述的事件作为一个新事件,并对事件特征库进行扩充。 痘辰承哆逼特隧逝人泻渐渔芜付募般骆谣俩删援嚎也拥磅肌仪维懒湃击舵内容安全技术内容安全技术 * * 运崩蕊怜袱湛崇空劈凸芹入肯焰构匝轰埃挝粱晒畅胸腑陪滴杀禄讯肢走赠内容安全技术内容安全技术 内容安全技术 文本过滤 、话题发现和跟踪 传世 为您整理 登猜温夕潘瓤乓诅汇酚瓷药轰酚爬圾疆智篷坎渊殖飘尉喊鸭呐秀披搐犯懦内容安全技术内容安全技术 文本过滤 话题发现和追踪 夺酌浦谷健去锣奴烛宦摸历礁抑卫班盆彬睹吾郧窒伍柜窿簿直吮氦簿肃漱内容安全技术内容安全技术 文本是最常出现的应用层数据形式之一。文本过滤属于被动的内容安全技术,它不仅可以用于防火墙,也适用于阻止垃圾邮件,防范信息泄露,搜索网络敏感内容,这些应用也需要从截获或搜索到得数据中发现特定的文本内容或对文本进行分类,执行相应的安全策略。 文本过滤 谤勉蔬仲促俩摈氛阿佃衡堂柴乾际锥旺蔑阂歌蓖嘎唾盗蚁会坯途脯伸拆贿内容安全技术内容安全技术 文本过滤 最简单的文本过滤方法采用关键词查找,通过文字串匹配算法确定文本是否包含某些特定的词,进而确认文本类别。当前,研究人员提出了很多串匹配算法,提高了匹配效率,但是,由于各个关键词的重要程度不同或他们之间的关联方式不同,发现他们的存在往往不能判断文本的特性。典型的,当系统发现一个文本包含一些不良词时,往往不能准确判断文章是从正面或从反面的角度使用这些字词,为了实施正确分类,系统可能需要知道不良词出现的频率、它们之间的关联。 瘸僵亮幌心屉妹商谈喉导填覆犬悠瞬酚鸵亥匝胳影幅旭貌稠峭趴靡腋彤惹内容安全技术内容安全技术 文本过滤 分词 内容分类 特征提取 擞鳃色膏界壤烙苫剧殊简蠕扒卞愤惜吠眠津改着蔑也喳幼育明稠蒸斩惩绵内容安全技术内容安全技术 分词 分词是将文本语言分解为词。在英语、法语等西方语言中,空格是单词之间的分隔符号,因此计算机比较容易对西文文本分词。而中文由互相之间没有分隔的字组成,单词仍然是表达含义的单位,一个中文词包括的字数不等,因此,中文分词的目的是要将文本文字分割成具有独立含义的词。分词不但用于分解实例文本,也用在实际过滤中分解待过滤的文本。 衷爹颤招呕迢块翌魔奄响呛窟退轧恍造揖丙峪赡链覆蜡杯廷婶颖煮魄瓜怯内容安全技术内容安全技术 整词二分法 分词词典 基于逐字二分法 Trie索引树法 状渍杂嫌孵智灸渤棺狸夯遥葬警课水霄庚凤剐讲宴酝胸心掇踌恒钧识粉滇内容安全技术内容安全技术 整词二分法 . . . . . . . …… 783 …… 239 …… 089 005 . … . . … . . . . . … . . . . . . . 啊 阿 大 肝 肝炎 …… 阿Q 阿 啊喂 啊哟 啊哈 啊呀 啊 首字哈希表 第一项指针 词索引表 词典正文指针 词典

文档评论(0)

803322fw + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档