内容安全技术.ppt

  1. 1、本文档共40页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
内容安全技术;文本过滤;;;文本过滤;;整词二分法;整词二分法;Trie索引树法;Trie索引树法;;面向文本进行即时搜索和过滤的工具— Text Filter ;基本用法: 打开一个文本文件,然后点击搜索框,输入查询字符串。搜索的结果就在输入的同时被过滤出来(不匹配的文本行被隐藏),同时关键字高亮显示。 ;常用的文本过滤技术与原理 ;向量空间模型: ;关键词匹配算法: ;二、语义分析: ;例如: “ 美军轰炸伊拉克 ” 和句子 “ 伊拉克轰炸美军 ” , 向量形式都为 ( 美军 , 伊拉克 , 轰炸 ) 。两者的相似度为 1 , 使得两个句子在任何情况下 , 都是匹配的 , 其实两个句子的意思是截然相反的。造成这样误判的根本原因是未能区分句子中的主体和受体。而要解决这个问题 , 则只有通过语法语义分析 , 识别文本和句子中各个特征项的角色和作用 , 并将这种语义信息加入到模板表示和文本表示中 , 弥补统计方法的不足。;根据动作的施加和接受可以将句子分成以下四种模式 : ; 淫秽色情信息借助网络这一便捷的信息传播途径,大量涌现,对青少年健康成长构成了极大的现实威胁。清理网络色情、暴力等不良信息需要整个社会共同的努力 ; 据中国互联网络信息中心(CNNIC)2004年1月发布的《第十三次中国互联网发展状况统计报告》报道,中国的Internet用户平均每周收到13.7封电子邮件,其中垃圾邮件占了7.9封;据中国互联网协会的反垃圾邮件协调小组2004年3月发布的统计数据,中国的Internet用户平均每人每周发送电子邮件9.8封,收到正常电子邮件12.6封,收到垃圾电子邮件19.3封。 ;反垃圾邮件技术;二. SMTP层的反垃圾邮件技术;案例: 据国外媒体报道,美国InNova公司日前向法院提起诉讼,指控苹果、谷歌等36家公司不正确的使用了由InNova开发的垃圾邮件过滤技术。 拉尼尔律师事务所表示,上述公司使用了第6,018,761号专利,即用于甄别常规电子邮件与不需要的广告垃圾邮件的技术。该专利由数学家、InNova创始人罗伯特?乌米尼(Robert Uomini)拥有,他在大约15年前便向美国专利与商标局提交了这项专利的申请。 InNova在诉讼中称,“被告一直通过制造、使用??销售含有第6,018,761号专利的产品,这侵犯了InNova利益。”InNova还称,目前超过80%的电子邮件都是垃圾邮件,这也是被告为何使用InNova的技术,而不是让员工自己删除数十亿封无用的垃圾邮件的原因。但不幸的是,这些公司在并没有获得InNova的准许下,侵权使用了垃圾邮件过滤技术。 除苹果、谷歌之外,被告还包括3Com、阿尔卡特-朗讯、国际集团、美洲银行、花旗集团、爱立信、惠普、IBM、RIM、赛门铁克、雅虎等公司。;特征提取;;常用权值计算方法;;;互信息(Mutual Information);内容分类;;话题发现和跟踪;话题发现和跟踪;;新事件识别;;;话题跟踪;End

文档评论(0)

shaoye348 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档