译文 | 2014,初见GAN:解读GAN原始论文(含译文PDF下载)


作者:Ian J. Goodfellow等
翻译:七月在线DL翻译组
译者:杨智友 彭博 张永彬
责编:翟惠良 July
声明:本译文仅供学习交流,有任何翻译不当之处,敬请留言指正。转载请注明出处。
原文:https://arxiv.org/pdf/1406.2661.pdf
下载

——前言:深度学习的任务是发现丰富的层次模型,这些模型在人工智能领域里用来表达各种数据的概率分布,例如自然图像,包含语音的音频波形以及自然语言语料库中的符号等。到目前为止,在深度学习领域最为成功的的模型便是判别式模型,通常它们将高维丰富的感知器输入映射到类别标签。这些显著的成功主要是基于反向传播和丢弃算法来实现的,特别是具有特别良好梯度的分段线性单元。然而,由于在最大似然估计和相关策略中会遇见许多难以解决的概率计算困难,而且在生成上下文时很难利用使用分段线性单元的好处,导致深度生成模型的使用效果没有需求的那么大。这个时候就需要一个新的生成模型估计方法来避开这些难题。

摘要 本文提出一个通过对抗过程来估计生成模型的新框架,在这个框架中将会有两个模型被同时训练:生成模型G——用来捕获数据分布,判别模型D——用来估计样本来自训练数据而不是G的概率。G的训练过程目的是最大化D产生错误的概率。这个框架相当于一个极小化极大的双方博弈。在任意函数G 和D的空间中存在唯一的解,此时G恢复训练数据分布,并且D处处都等于1/2。在G和D由多层感知器构成的情况下,整个系统可以用反向传播进行训练。在训练或生成样本时不需要任何马尔科夫链或展开的近似推理网络。 实验通过对生成的样本定性和定量评估来展示这个框架的潜力。

介绍 在本文提到的对抗网络框架中,生成模型对抗着一个对手:一个通过学习去判别样本是来自模型分布还是数据分布的判别模型。生成模型可以被认为是一个伪造团队,试图产生假货并在不被发现的情况下使用它,而判别模型类似于警察,试图检测假币。在这个游戏中的竞争驱使两个团队不断改进他们的方法,直到真假难分为止。
针对多种模型和优化算法,这个框架可以提供特定的训练方法。在这篇文章中,我们探讨了生成模型将随机噪声传输到多层感知机来生成样本的特例,同时判别模型也是通过多层感知机实现的。我们称这个特例为对抗网络。在这种情况下,我们可以仅使用非常成熟的反向传播和丢弃算法训练两个模型,生成模型在生成样本时只使用前向传播算法。并且不需要近似推理和马尔可夫链作为前提。

相关工作 含隐变量的有向图模型可以由含隐变量的无向图模型替代,例如受限波兹曼机(RBM),深度波兹曼机(DBM)和它们很多的变种。这些模型之间的相互影响可以表达为非标准化的势函数的乘积,再通过随机变量的所有状态的全局整合来标准化。这个数量(配分函数)和它的梯度的估算是很棘手的,尽管他们能够使用马尔可夫链和蒙特卡罗(MCMC)算法来估计,同时依靠MCMC算法的混合也会引发一个严重的问题。
深度置信网络(DBN)是一个包含一个无向层和若干有向层的混合模型。当使用快速逐层训练法则时,DBNS 会引发无向模型和有向模型相关的计算难题。
已经有人提出不采用似然函数的估计或约数的替代准则,例如分数匹配和噪音压缩评估(NCE)。他们都需要知道先验概率密度知识以分析指定一个规范化的常量。请注意,许多有趣的带有一些隐层变量的生成模型(如DBN和DBM),它们甚至不需要难以处理的非标准化的概率密度先验知识。一些模型如自动编码降噪机和压缩编码的学习准则与分数匹配在RBM上的应用非常相似。在NCE 中,使用一个判别训练准则来拟合一个生成模型。然而,生成模型常常被用来判别从一个固定噪音分布中抽样生成的数据,而不是拟合一个独立的判别模型。由于NCE 使用一个固定的噪音分布,仅仅是从观测变量的一个小子集中学习到一个大致正确的分布后,模型的学习便急剧减慢。
最后,一些技术并没有用来明确定义概率分布,而是用来训练一个生成器来从期望的分布中拟合出样本。这个方法优势在于这些机器学习算法能够设计使用反向传播算法训练。这个领域最近比较突出的工作包含生成随机网络(GSN),它扩展了广义的除噪自动编码器:两者都可以看作是定义了一个参数化的马尔可夫链,即一个通过执行生成马尔科夫链的一个步骤来学习机器参数的算法。同GSNs 相比,对抗网络不需要使用马尔可夫链来采样。由于对抗网络在生成阶段不需要循环反馈信息,它们能够更好的利用分段线性单元,这可以提高反向传播的性能。更多利用反向传播算法来训练生成器的例子包括变分贝叶斯自动编码和随机反向传播。

对抗网络
一句话描述—— “D和G的训练是关于值函数V(G, D)的极小化极大的二人博弈问题”。
图1.png

D(x)代表x来自于真实数据分布,我们训练D来最大化分配正确标签的概率,不管数据是来自于训练样例还是G生成的样例。我们同时训练G来最小化log(1-D(G(z)))。
实际上,以上方程可能无法为G提供足够的梯度来学习。训练初期,当G的生成效果很差时,D会以高置信度来拒绝生成样本,因为它们与训练数据明显不同。因此,log(1-D(G(z)))饱和。因此我们选择最大化logD(G(z))而不是最小化log(1-D(G(z))) 来训练G,该目标函数使G和D的动态固定点相同,并且在训练初期,该目标函数可以提供更强大的梯度。

理论结果 如果模型容量和训练时间足够大时,最好的结果是——本文提供的算法1收敛为Pdata的良好估计量。本节的结果是在非参数设置下完成的,例如,我们通过研究概率密度函数空间中的收敛来表示具有无限容量的模型。

理论结果1——Pg=Pdata
图2.png

如下图:
图3.png

算法1——
图4.png


理论结果2——算法1的收敛性
命题提出及证明过程:
图5.png

实际上,对抗的网络通过函数G(z; θg) 表Pg分布的有限簇,并且我们优化θg而不是Pg本身。使用一个多层感知机来定义G在参数空间引入了多个临界点。然而,尽管缺乏理论证明,但在实际中多层感知机的优良性能表明了这是一个合理的模型。

实验 我们在一系列数据集上,包括MNIST、多伦多面部数据库(TFD)和CIFAR-10,来训练对抗网络。生成器的激活函数包括修正线性激活(ReLU)和sigmoid 激活,而判别器使用maxout激活。Dropout被用于判别器网络的训练。虽然理论框架可以在生成器的中间层使用Dropout和其他噪声,但是这里仅在生成网络的最底层使用噪声输入。
图6.png

我们通过对G生成的样本应用高斯Parzen窗口并计算此分布下的对数似然,来估计测试集数据的概率。高斯的σ参数通过对验证集的交叉验证获得。Breuleux 等人引入该过程且用于不同的似然难解的生成模型上。结果报告在表1中。该方法估计似然的方差较大且高维空间中表现不好,但确实目前我们认为最好的方法。生成模型的优点是可采样而不直接估计似然,从而促进了该模型评估的进一步研究。
训练后的生成样本如下图2图3所示。虽然未声明该方法生成的样本优于其它方法生成的样本,但我们相信这些样本至少和文献中较好的生成模型相比依然有竞争力,也突出了对抗框架的潜力。
图7.png

图8.png

图9.png


GAN的优势和劣势 新框架相比以前的模型框架有其优缺点。缺点主要为Pg(x)是隐式表示,且训练期间,D和G必须很好地同步(尤其,不更新D时G 不必过度训练,为避免“Helvetica 情景”。否则,x值相同时G丢失过多z值以至于模型Pdata多样性不足),正如Boltzmann机在学习步间的不断更新。其优点是无需马尔科夫链,仅用反向传播来获得梯度,学习间无需推理,且模型中可融入多种函数。上述的Table2总结了生成对抗网络与其他生成模型方法的比较。
上述优势主要在计算上。判别式模型可以从生成模型中获得一些统计优势,生成模型并未直接通过数据更新,而是仅用流过判别器的梯度。这意味输入部分未直接复制进生成器的参数。对抗的网络的另一优点是可表示很尖,甚至退化的分布,而基于马尔科夫链的方法为混合模式而要求模糊的分布。

——总结和未来展望——
该框架允许许多直接的扩展:
- 条件生成模型p(x|c)可以通过将c作为G和D的输入来获得。
- 给定x,可以通过训练一个任意的模型来学习近似推理,以预测z。 这和wake-sleep算法训练出的推理网络类似,但是它具有一个优势,就是在生成器训练完成后,这个推理网络可以针对固定的生成器进行训练。
- 能够用来近似模型所有的条件概率p(xs|-xs),其中S通过训练共享参数的条件模型簇的关于x索引的一个子集。本质上,可以使用生成对抗网络来随机拓展MP-DBM。
- 半监督学习:当标签数据有限时,判别网络或推理网络的特征会提高分类器效果。
- 效率改善:为协调G和D设计更好的方法,或训练期间确定更好的分布来采样z,能够极大的加速训练。
完。

后记
关于我们

七月在线DL翻译组是由一群热爱翻译、热爱DL、英语六级以上的研究生或博士组成,有七月在线的学员,也有非学员。本翻译组翻译的所有全部论文仅供学习交流,宗旨是:汇集顶级内容 帮助全球更多人。目前已经翻译数十篇顶级DL论文,详见:https://ask.julyedu.com/question/7612

加入我们
如果你过了英语六级、是研究生或博士、且熟练DL、热爱翻译,欢迎加入我们翻译组,微博私信@研究者July

GAN课程
为了帮助更多人更好的了解、学习、入门GAN,今年上半年,我们七月在线亦会开《生成对抗网络班》,从头到尾详解GAN的原理及其实战应用,敬请期待。
已邀请:

帕其维克的世界 - 纸上得来终觉浅,绝知此事要躬行。

赞同来自:


下载时提示文件未找到

要回复问题请先登录注册