- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
?
?
基于条件生成对抗网络的图像转化方法研究
?
?
冷佳明曾振刘广源郑新阳刘璎慧
摘要:近年来,利用设备将手绘图像转换为自然图像的方法是当前的图像处理领域主流方向之一。生成式对抗网络(GAN,GenerativeAdversarialNetworks)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。本文提出一种基于生成对抗网络的图像转换方法,它可以改善原本存在的图像转换方法的差异大、模糊不清等缺点,减小手绘图像与自然图像的视觉差异。实验中生成器由U-net构成,判别器为patch-GAN,对网络模型使用L1进行约束。二者交替训练,通过改变学习率、迭代次数等参数来进行对比训练效果。最后得到的网络模型可以对人脸的手绘图进行轮廓和部分细节的还原。
关键词:手绘图像;条件生成对抗网络;人脸
1引言
近年来,随着越来越多的智能化设备的开发,人类正一步步迈向智能化生活,也期待着存在更加方便快捷的设备或系统可以满足人们的设想。在日常生活中,手绘是一种常见的交流方式,人类自古以来就以绘画的方式描绘生活中的一点一滴。概括地说,手绘可以快速地对某个场景进行较为完整的描述。在当今社会,通过普遍存在的触屏设备,人们能在智能设备上手绘出一幅简单的图片,而设备给出符合程度相对较高的实物图片,这在互联网信息时代是有价值的。
在手绘图像转化为自然图像的过程中,亟需解决的重要问题是消除二者之间的视觉差异。消除此差异有三个思路:第一种是可以使用一些边缘提取算法将自然图像转换为手绘图像;第二种是可以使用一些图像渲染算法将手绘图像转换为自然图像;第三种是将二者映射到相同的特征空间,但应用此思路的方法较少。第一种虽有算法工具的优势,但转化过程前后容易存在较大的图片差异,所以本文采用第二种想法——利用近些年取得重大进展的生成对抗网络(generativeadversarialnetworks,GAN)模型实现手绘图像到自然图像的转化。
相比于其它模型,利用GAN模型实现的转化图像更清晰,模糊部分减少。本文由此模型联想到GAN家族中的条件生成对抗网络(conditionalgenerativeadversarialnetworks,CGAN),就像GAN学习数据的生成模型一样,CGAN也学习了条件生成模型,这使得CGAN更适合于图像到图像的转换任务。该模型更加符合本文所要完成的任务,而且它展示了很好的边缘图至自然图像的转换能力。
2方法
生成式对抗网络(GAN)框架于2014年被IanJ.Goodfellow等人开创性地提出,此框架同时训练用于捕获数据分布的生成模型和用于估计样本来自训练数据而不是生成器的概率的判别模型,整体系统通过反向传播进行训练,而且训练过程或生成模型期间不需要任何马尔科夫链或展开近似推理网络。与以往的模型不同,本文的生成器使用以U-Net为基础的架构,判别器使用卷积的PatchGAN分类器,它只在图像patch的尺度上对结构进行惩罚,曾有论文提出了一个类似PatchGAN的架构并将其用于捕获本地风格数据。本文证明这种方法可以用在更广泛的问题上。
2.1CGAN原理
传统GAN在图像应用方面只能保证输入x尽可能地靠近真实图片,并不能使输入符合描述条件c的要求。2014年Mirza等人提出了有条件生成对抗网络(CGAN),此模型中判别器的输入x被修改为同时输入c和x,而输出一方面判断x是否为真实图片,另一方面判断x和c是否匹配;它还演示了如何使用该模型来学习一个多模态模型,并提供了一个应用于图像标记的示例。
在生成器模型G和判别器模型D的比较中,CGAN的学习过程相比于GAN的只有随机噪声向量z到输出图像y的G:z→y的匹配关系,增加了被观察图像x的输入,即是G:{x,z}→y的匹配关系。
CGAN的目标函数为
在此式中,生成器G要最小化该目标函数。相反地,判别器D要最大化该目标函数:
.
在CGAN中加入损失函数会使网络更加有效。例如加入L1范数损失函数后:
VL1(G)=Ex,y~p(x,y),z~p(z)
[‖y-G(x,z)┤‖1]
目标函数变为
2.2生成器
两种图像之间的转换问题的特点是将高分辨率输入网格映射到高分辨率输出网格。对于本文研究的问题,在表层外观方面输入和输出是不同的,但都具有相同的底层渲染架构。因此输入中的架构大致与输出中的架构对齐。在本文所涉及到的领域中,很多以前的模型都是用了编码器-解码器网络。在这样的网络中,输入经过一系列层,逐步向下采样,直到达到瓶颈层后进行反转。此网络要求所有的信息流通过瓶颈层在内的所有层。而对于图像翻译问题,输入和输出之间有大量的底层信息共享,所以可以选择直接通过网络传输这些信息。
本文使用一种绕过此类信息瓶颈层的方法—
您可能关注的文档
- 基于某水利工程平面钢闸门振动机理试验研究.docx
- 基于学生视角的前滚翻教学策略.docx
- 基于微信的计算机应用基础移动学习微平台的构建与应用分析.docx
- 基于BIM技术对装配式建筑未来发展的经济价值研究.docx
- 并读:出自传统媒体的互联网新锐-对话南都报系总裁曹轲.docx
- 人教版数学六年级上册 第一单元 第1课时 分数乘整数-1.pptx
- 人教版数学六年级下册 第二单元 第3课时 税率.pptx
- 人教版数学六年级上册 第四单元 第2课时 比的基本性质.pptx
- 人教版数学六年级上册 第二单元 第2课时 标出物体的位置.pptx
- 国家体育场(鸟巢)装修施工组织设计图片.doc
- 人教版数学六年级上册 第一单元 第5课时 分数乘小数.pptx
- 人教版数学六年级上册 第四单元 第3课时 比的应用.pptx
- 人教版数学六年级上册 第五单元 第5课时 圆的面积-2.pptx
- 人教版数学六年级上册 第一单元 第7课时 解决问题-1.pptx
- 人教版数学六年级下册 第二单元 第4课时 利率.pptx
- 人教版数学六年级上册 第一单元 第8课时 解决问题-2.pptx
- 人教版数学六年级下册 第五单元 第2课时 鸽巢问题的一般形式.pptx
- 人教版数学六年级下册 第四单元 整理和复习.pptx
- 人教版数学六年级上册 第一单元 第3课时 分数乘分数-1.pptx
- 人教版数学六年级下册 第六单元复习第2课时 可能性.pptx
文档评论(0)