多媒体内容识别.doc

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多媒体内容识别

目 录 第1章 需求分析 2 1.1 背景 2 1.2 ICP面对的挑战 2 第2章 不良图片分析系统解决方案 4 2.1 技术原理 4 2.2 技术指标 6 2.3 部署方案 7 第3章 投资及回报 8 3.1 系统投资 8 3.2 投资回报 8 第4章 附录:新浪应用案例 9 第5章 附录:公司简介 10 需求分析 背景 截至2009年6月底,我国网民数量已达3.38亿人,网站数达306.1万个,博客用户数也达1.81亿人。(来源:CNNIC。)互联网内容的迅猛增长,给内容监管提出了严峻的挑战。互联网有别于传统媒体,互动性、实时性强,传播速度快,覆盖性广,数据类型多种多样,其中滋生了大量的色情低俗内容,严重危害了青少年的身心健康。 前一段时间,谷歌网络搜索含有低俗信息的争议一直是网络上热议的话题,然而谷歌“消毒”并非一件容易的事情,尽管谷歌工程师做了“机器学习”系统作辅助,但也只是对低俗文字网页有用,而对那些社会影响更恶劣的色情图片仍显得无能为力,只能通过网民举报等非技术手段在事发之后做出响应,非常被动。国际网络搜索巨擎尚且不能很好解决的问题,对于其他网络内容、服务提供商来说其难度不言而喻。 自2009年1月全国开展整治互联网低俗之风专项行动以来,一批批违规网站被曝光、整治和关闭,网上淫秽色情和低俗内容明显减少,行动取得了巨大的成果,网络文化环境明显改善。然而,近期新公布的一批违规网站名单中,我们仍能发现一些知名ICP内容提供商上榜,有识之士频频呼吁全社会参与,长期坚持,与网络色情低俗内容打一场持久战。 网络色情低俗问题,受到广大社会以及媒体的广泛关注,CCTV焦点访谈也频频进行跟踪及讨论。 ICP面对的挑战 网络色情低俗问题,涉及的范围很广,涉及到网络及网络传输的各个环节,包括:运营商、内容提供商、各类网站、以及手机业务。 ICP,具有自己的特点: 集中运营,有固定的运营地点,具有大规模的业务及大规模的设备,设备集中、内容集中存放、内容更新一般采用用户上传的方式。 ICP内容控制,最大的挑战是:数据量极大,采用人工的方式,不可能做到全面检查与控制,并且相应开销巨大。 审视目前的监管和防治体系,我们能发现一个发布-审核-举报-整治的基本链条。以博客应用为例,用户注册后发表文章、上传图像或视频文件,服务提供商采用各种事前事后的内容审核手段防堵可能的色情低俗内容,对于大中型网站而言,即便配备了人数众多的内容审核人员,在海量信息的上传和发布面前,也常常是有心无力,做不到全面、实时和准确的内容监管,以致于主要依赖于最终用户的举报和事后查处。前谷歌中国负责人李开复在接受记者采访时坦承没有好的技术手段进行自动化检测,只能推出用户举报机制来发现不良内容。具有讽刺意味的是,在这种模式下,是潜在的受害者来举报侵犯自己的内容,在被人工封杀之前,可能还会有更多人受到不良的伤害。究其原因,还是内容和应用提供商没有好的技术手段来防患于未然,御敌于城门之外。 纵观全世界,针对色情图像和视频的自动化检测,是一个相当前沿的技术领域。在规定范式的图像模式识别领域,如针对文字的OCR,针对指纹、视网膜、号牌、工业零件等特定物件的识别已经相当成熟。但色情内容千差万别,难以提取统一和规范化的特征,所以成为一个具有高度挑战性的研究课题。 不良图片分析系统解决方案 雄智伟业的研发团队潜心耕耘于内容监控领域,早在2007年就意识到了色情图像检测的技术挑战,开始进行这方面的研究,经过近2年的反复摸索,终于研制成功了集准确度、智能化和高性能于一身的“网清”色情图像自动化检测技术,在多家电信运营商和信息提供商用户成功运用,取得了巨大的社会和经济效益。 针对ICP的业务特点,推出:不良图片分析系统 不良图片分析系统具有两项重要功能: 不良图片分析:用来分析淫秽色情图片 相似图片分析:用来进行图片比对,分析敏感图片 特点:部署简便快捷。 产品具有自主知识产权,提供标准TCP接口(提供API和命令行)。 面向ICP,系统非常适合ICP对图片文件进行检查(ICP文件及图片存储非常集中,并且有统一的上传接口,这就为不良图片分析系统的部署提供了方便)。 技术原理 色情图像检测 色情图像的识别,有别于传统特定范式的图像识别,具有模糊性、特征点数量多而且样式多样的特点。因此,网清采用了二级分离器的识别体系,在通过海量样本采样分析的基础上,形成了一个高度智能化的检测架构,如下图所示: 通过一级神经网络分离器,首先分离出正常图像,其他图像进入二级向量机分离器,再分出色情、疑似色情和正常图像(可以调整评分机制)。采用二级分离器的优势是既可以提高分离速度,又能给出多层级结果,符合人类模糊判断的特点。神经网络分离器的特点是分类较粗,但速度快,在这一步就可以将大部分明显是正常的图像排除在外,减低

文档评论(0)

shenlan118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档