这是CVPR2017的文章。
在这篇论文中,作者提出了 Disentangled Representation GAN(DR-GAN) 。如下图:
如下图是之前的GAN和作者提出的DR-GAN的对比图:
DR-GAN有两个变形,一个 basic model ,它将一副图片作为输入,称为 single-image DR-GAN ,另一个是 multi-image DR-GAN ,它的输入是多个图片。
通常情况下GAN包含一个 generator ,一个 discriminator ,两者在一个问题中进行最大化,最小化的竞争。 会尽量区分出真实图片和生成图片 ,与此同时 会尽量生成一个看似真实的图片来欺骗 。如下图:
Single-Image DR-GAN和传统的GAN有两处明显的区别
根据前面所描述的,我们可以对问题进行表述: 给定一张人脸图片: 和它的label: ,前者为id,后者为姿态。我们的目标是:1.学习一个姿态无关的人脸特征表示,2.合成一张相同id但是不同姿态的人脸图片。并且,这里的 是一个多目标的CNN网络,也就是它包含了两个部分: 。 也就是说,给定输入人脸图片 , 会产生它的id和姿态,给定一个生成人脸 , 会努力预测它为假。如下式:
与此同时, 包含了一个encoder, 一个decoder。encoder产生一个输入人脸图片的特征表示: ,decoder输出生成的人脸图片: ,其中 是目标姿态, 是噪音。如下式:
如下图,Multi-Image的 是相同的,但是有不同的 。
需要注意的是,所有的 共享一组参数。