0717-7821348
欢乐彩票登录

欢乐彩票登录

您现在的位置: 首页 > 欢乐彩票登录
欢乐彩票登录-BigBiGAN的宿世此生,走向老练的特征抽取器
2019-07-26 23:16:02

机器之心原创

作者:王子嘉

修正:Haojin Yang

生成模型的根本原则是想要构建一个令人信服的数据示例。 图画越传神,模型把握方针的依据就越强。 生成对立网络(GAN)凭仗其在图画组成方面的超卓体现招引了许多的重视,但 GAN 的一些潜在优势并没有被开发出来,例如无监督表明学习。本文作者为王子嘉,现在在帝国理工学院人工智能粉丝的做法硕士在读。

生成模型通过练习能够模拟出完好的数据散布,一起无需对原始数据进行任何修正,假如 GAN 能够在生成图片的一起,也明晰的学习到语义(在生成图片时的随机潜变量),那么在自我监督使命中,GAN 就能够称为特征提取部分很有力的备选项,但惋惜的是,GAN 在这方面一向没能做的特别出彩。

近来,DeepMind 就依据 BiGAN 完结了这一打破,提出了「BigBiGAN」,它在 ImageNet 上的无监督表明学习和无条件图画生成方面都取得了极为优异的成果。

1.BigBiGAN 的由来

BigBiGAN 这一姓名能够被分红三个部分来解读,Big+Bi+GAN。

榜首部分和第三部分比较好了解,GAN 表明 BigBiGAN 的根底之一是规范 GAN 结构,而 Big 表明的便是大规模学习(Large scale),从 BigGAN 中承继了一些练习大规模 GAN 的办法。

第二部分的 Bi 则表明双向(Bidirectional),这儿的双向不是像 RNN、XLNet 等处理序列类数据时那样获取双向信息。这儿的双向表明在 BigBiGAN 中的数据处理方向,生成器(G)的作用是将随机潜变量(z)还原成原始数据(x),而编码器(E)则期望从 x 中提取 z,这个两个元件便是 GAN 能完结表征学习的要害了,所以 Twitter 上有人会说 BigBiGAN 也能够叫 BigALI,这儿 ALI 的意思是对立学习推理 (Adversarial Learned Inference),与 Bi 本质上是一个意思,只不过 Bi欢乐彩票登录-BigBiGAN的宿世此生,走向老练的特征抽取器 与 ALI 在不同的论文中提出。

了解了 BigBiGAN 姓名的意义后,它的由来就很清楚了。首要,它来历于 BiGAN,但由于 BiGAN 的 G 是依据 DCGAN 的,所以生成的图片质量并不高,这也就导致了 G 的输出、判别器(D)的输入同 E 的输入的图片分辩率不同,E 输入的图片分辩率会高许多。这个不同也对 BiGAN 的特征提取作用也发生了约束。

BiGAN(2017)提出一年后,BigGAN(2018)呈现了,运用一些办法很好地完结了大规模 GAN 的练习,而且生成了很高质量的图片。因而,BigGAN 刚好处理了 BiGAN 提出时 G 的作用欠安的问题,BigBiGAN 也就应运而生了。

2.BiGAN

由于 BigBiGAN 主要是在 BiGAN 的根底上进行改善的,所以本文的第二部分将对 BiGAN 进行简略介绍,以阐明怎么运用 GAN 进行特征提取。BiGAN 运用对立的办法联合练习了一个生成网络与一个揣度网络。生成网络便是 GAN 中的 G, 将随机潜变量映射到数据空间, 而推理网络 (在 BiGAN 中由 E 充任) 将练习样本从数据空间反映射到潜变量空间。因而, 对立博弈在 G, E 与 D 之间打开。下图是 BiGAN 的结构:

从上图能够看出,BiGAN 在 GAN 的根底上参加了一个将数据映射到隐特征空间的 E,一起对 D 做了相应的改善。D 的输入变成了两个数据对(G(z),z)和(x, E(x)),其间 G(z)和 E(x)别离代表 G 和 E 的输出,x 代表原始数据,z 表明随机潜变量。此刻 G 与 E 的联合概率能够表明为:

  • 编码器的联合 (概率) 散布 q(x, z)=q(x)q(z|x)
  • 解码器的联合散布 p(x, z)=p(z)p(x|z)

此刻 G,E 和 D 的博弈能够了解为——G 和 E 期望能够诈骗 D,让 D 无法分辩这两个数据对的来历。终究的模型期望 x = G(E(x)),z = E(G(z))(双向)。假如 D 以为这个数据对来自 G,则输出 1,若是来自 E,则输出 0。

BiGAN 的方针函数仍是选用相似 GAN 的方式

将上述方针转换成数学公式,V 即被界说为:

这个式子和 GAN 的价值函数的差异仅在于 D(x) 变成了 D(x, Gz(x)), D(G(z)) 变成了 D(Gx(z), z)。[1] 中也对这个方针函数是否能完结 x = G(E(x)),z = E(G(z))做了证明,这一方针的数学意义能够说是两个联合概率持平,即当 BiGAN 的练习完结, 上文说到的两个联合散布(q(x, z) 与 p(x, z))匹配,这也就意味着一切的边际散布和条件散布都匹配了。比方能够以为条件概率 q(z|x) 匹配了后验概率 p(x|z)。

总归,BiGAN 使得 GAN 具有了学习有意义的特征表明的才能。原始 GAN 中,D 接纳样本作为输入, 并将其习得的中心表明作为相关使命的特征表明, 没有其他的机制。它关于生成数据与实在数据的语义上有意义的特征并不非常明晰。当 G 生成了实在数据时,D 只能猜测生成数据(图片)的实在性,可是无法学习有意义的中心表明。BiGAN 便是期望让 GAN 能够具有表征学习才能。

3.BigBiGAN

BigBiGAN 在结构上并没有对 BiGAN 做什么改动,原理也根本共同,仅仅将 D 的结构改善了一下,一起运用了 BigGAN 的生成器和判别器结构(见后文 Ablation Study)以及 BigGAN 的练习办法(如数据切断)。BigBiGAN 的结构如下图所示:

在上图中,图画的左上方的两个 x 是实在数据(图画),左下方的两个 z 是上述数据(图画)的重建。由图可见,D 包含三个部分——F,H,J,其间 F,H 是两个单元项 (unary term,只与 x 或许 z 中的一项有关),F 的作用与一般 GAN 的 D 相同,差异生成的数据与原始数据;H 的作用则是确认 E 提取出的 z 与输入到 G 的 z 是否相同,这两个单元项的参加是为了更好的确保优化过程中向着最优解的方向行进。剩余的 J 的作用则是将 x 与 z 结合在一起。具体的丢失函数为:

其间,s_* 是 D 的分数(score),L_D 是 D 的丢失,L_{EG} 是 E 和 G 的丢失,l_* 是单个样本的丢失,E 和 G 参数的优化方针是最小化 L_{EG},而 D 的方针是最小化 L_D。可见与大多数显式重建丢失(如 pixel-wise)不同,参加了 E 的重建倾向于保存输入的高档语义,而不是像素这种初级细节,因而 BigBiGAN 的练习更鼓舞编码器对高档语义进行建模,而不是初级细节。

4.试验成果

BigBiGAN 为了证明自己所做改善的有效性以及不同结构的作用差异,首要进行了比较全面的 Ablation Study,能够看到成果如下:

本次测验运用了三个规范——IS(Inception Score),FID(Frchet Inception Distance)和 Cls(Classification accuracy percentage)。关于 base,LR 代表学习速率,ResNet times N / RevNet times N 中的 N 代表 N 倍宽度的对应结构;关于 Encoder,A 代表结构(S 代表 ResNet,V 代表 RevNet),D 代表网络的深度,C 代表 Channel Width,R 表明输入图片的分辩率,eta 表明 learning rate multiplier。图中标蓝的表明根本设置的更改。

一起,为了证明其表征学习才能,文章作者也将 B欢乐彩票登录-BigBiGAN的宿世此生,走向老练的特征抽取器igBiGAN 的最佳组合(上表中的终究两行)在 ImageNet 上就准确率与最近作用较好的自我监督办法进行了比较。其间 BN+CReLU 是在 AvePool 的成果 a 的根底上,先进行 h = BatchNorm(a) 操作,并将 [ReLU(h), ReLU(-h)] 作为终究特征输出,这种输出办法也叫 CReLU。其间 BatchNorm 表明无参数 Batch Normalization,所以这个新加的操作并不会添加计算成本;而 CReLU 的参加则让成果变得愈加全面,然后取得更好的输出成果。具体成果如下表所示:

由上欢乐彩票登录-BigBiGAN的宿世此生,走向老练的特征抽取器表可见,依据 top-1 准确率来看,BigBiGAN 的表征作用是处于领先水平的。可是在 top-5 准确率上,[4] 中与 BigBiGAN 简直一起提出的模型 Contrastic Predictive 欢乐彩票登录-BigBiGAN的宿世此生,走向老练的特征抽取器Coding(CPC) 要更高一点,这是一种非监督学习办法,感兴趣的读者能够自己去看一下论文。除此之外,作者还在附录里贴了相同结构下监督学习的准确率,如下表所示。由下表能够看出,BigBiGAN 作为一种彻底依据 Generative Model 的办法,在准确率上比监督学习的办法仍是要差许多的。是否必需要彻底依据 Generative Model?未来是否能好像半监督学习相同,结合 Generative Model 与监督学习产出一种新的更高效且准确率也很高的办法?这些都是很值得等待的。

终究,作者回归 GAN 最原始的使命——图画生成,将其与其他非监督图画生成办法进行了比照。下表中的试验成果是在通过数据增强后的,所以与最开端的表格成果有所收支。榜首行中的 SL 表明 single label 办法,发生的是一种单混和标签;而 Clustering 表明标签是由 Clustering 取得的,是一种伪标签。终究,由于在 500K 步后,BigBiGAN High Res + SL 的作用还有提高,所以终究一行也参加了 1M 步后的成果。具体成果见下表。

可见 BigBiGAN 在图画生成使命上的体现是很好的,IS 和 FID 都比 BigGAN 的各种组合(SL 和 Clustering)要好许多,一起在高分辩率图的生成上(High Res),BigBiGAN 也比当下的最佳组合 BigGAN+Clustering 要好许欢乐彩票登录-BigBiGAN的宿世此生,走向老练的特征抽取器多(由于这两种组合中 E 的输出都是相同的 128*128,所以仍是有可比性的)。

5.总结

BigBiGAN 结合了当时在 GAN 范畴的最新技能,也提欢乐彩票登录-BigBiGAN的宿世此生,走向老练的特征抽取器出了自己的改善(D 结构的优化等),然后在 GAN 范畴独领风骚,也在特征提取方面跻身前列。可是未来是否会有更大的前进,让我们拭目而待吧。

[1] Jeff Donahue, Philipp Krhenbhl, and Trevor Darrell. Adversarial feature learning. CoRR, abs/1605.09782, 2016.

[2] Jeff Donahue and Karen Simonyan. Large scale adversarial representation learning. CoRR, abs/1809.11096, 2019.

[3] Andrew Brock, Jeff Donahue, and Karen Simonyan. Large scale GAN training for high fidelity natural image synthesis. CoRR, abs/1809.11096, 2018.

[4] Olivier J. Hnaff, Ali Razavi, Carl Doersch, S. M. Ali Eslami, and Aron van den Oord. Data-efficient image recognition with contrastive predictive coding. In arXiv:1905.09272, 2019.