【精品文档】一种基于内容的广告垃圾图像过滤方法- 幻灯片1.pptVIP

下载本文档

3
0
约1.02万字
约 37页
2019-05-31 发布于福建
举报
版权申诉

【精品文档】一种基于内容的广告垃圾图像过滤方法- 幻灯片1.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

【精品文档】一种基于内容的广告垃圾图像过滤方法- 幻灯片1

一种基于内容的广告垃圾图像过滤方法目录论题意义及其必要性过滤原理与实现方法实验和结果分析论题意义及其必要性垃圾邮件问题日益严重： 2005年7月，中国互联网络信息中心（CNNIC）发布的《第十六次中国互联网发展状况统计报告》显示，中国网民平均每周收到14.5封电子邮件，其中垃圾邮件占了9.3封，垃圾邮件数量已经大大超过了正常邮件数量。基于文本过滤方法的局限性：第一、基于文本的过滤受到文本语言种类的限制；第二、垃圾邮件发送者（spamer）经常使用各种各样的骗术来迷惑基于文本的垃圾邮件过滤器，比如将文字页面转换为图像；有数据显示，包含图像的垃圾邮件占所有垃圾邮件的25%。可见，这种欺骗手段已经被垃圾邮件制作者们频繁利用，如果没有找到可行的解决办法，这个数字还会上升。第三、随着因特网的范围和容量不断增长，邮件包含越来越多的多媒体信息。一些广告垃圾图片的示例目录论题意义及其必要性过滤原理与实现方法实验和结果分析过滤的原理任何广告都需要用文字来传播某种信息。也就是说，广告垃圾图像的文字区域特征具有普遍性。本文正是利用广告垃圾图像的文字区域特征来进行广告垃圾图像过滤。基本步骤： 1.提取图像的边缘信息，并把边缘信息做二值化处理； 2.将二值化边缘图像进行膨胀处理，使相邻的字符连通起来,并把膨胀处理后的所有连通区域作为候选文字区域记录下来； 3.利用文字区域的特征从候选文字区域中筛选出正确的文字区域； 4.根据得到的文字区域的数量和面积等特征对图像进行分类，把广告垃圾图像和合法图像区分开来。彩色边缘提取由于广告图像中的文本与背景有较强的对比度，表现为在文本与背景的交界处，存在十分明显的高频区域，因此可以用提取边缘的方法来大致估计出文本可能存在的区域。由于广告垃圾图像大多为彩色图像，所以本文采用张引等提出的彩色图像边缘提取算子来提取边缘，利用彩色三分量的彩色边缘提取算法，充分利用了全面的色彩信息，效果优于传统的灰度边缘提取算法。边缘提取的具体做法如下：已知输入图像f的RGB值，其中象素（i，j）的RGB分量分别为R（i，j），G（i，j），B（i，j）。要计算图像f的边缘图像Edge。 Eud（i1, j1; i2 , j2）定义为像素点（i1 , j1）与（i2 , j2）之间的彩色值欧氏距离。原图与边缘图像（a）原图（b）边缘图像边缘图像二值化阈值选取方法：首先计算边缘图像Edge的归一化灰度直方图h（i）：其中，ni是图像Edge中灰度值为i的象素的个数，N是图像象素总数。因为文字区域边缘十分明显，所以本文认为文字区域边缘的灰度级一般比较高。于是需要找到一个灰度级k作为阈值，把灰度大于k的边缘象素点保留，灰度小于k的边缘象素点忽略。令； eh(k)表示保留的边缘象素数占图像总象素数的比例；找到一个尽可能大的灰度级k使得eh（k）大于阈值TH1；如果此时k小于下限TH2，则把TH2作为二值化的阈值，否则把k作为二值化的阈值。在实验中，我们取TH1=0.2，TH2=120（认为文字区域边缘的灰度级不应低于120）。二值化边缘图像（c）二值化边缘图像候选文本区域提取从二值边缘图像中可以看出，由于文字的分布比较集中，所以文字附近的边缘比较丰富，而且属于同一文字区域的文字边缘具有较小的距离。对于水平方向的文本行来说，可以用水平膨胀的方法将相邻的边缘连起来，形成连通的区域，从而在空间位置上将可能含有文本的区域检测出来。膨胀方法：设f 为二值图像，B为结构元素，二值形态和（膨胀）定义如下：其中表示以（x，y）为原点，形状与结构元素B相同的区域。膨胀运算具有扩大图像的作用，膨胀可以看作是将图像f中的每一个点（x，y）扩大为。本文使用的结构元素B是一条N个象素的水平线段。其中N由图像的宽度决定，因为较宽的图像里的文字的横向间隔也会较宽。本文中取N=imageWidth/250+1；其中i