Electra

浏览 138 扫码分享 2023-11-22 12:43:52

	Electra	GAN
输入	真实文本	噪声
生成器和判别器	生成器目标是最大似然函数，和判别器无交互	生成器尽可能欺骗判别器
梯度传播	判别器梯度无法传播到生成器	判别器梯度可以传播到生成器
特殊情况	生成器预测过程中可能预测真实的token

训练细节

小的generator更有效，因此只共享了G和D的embedding。
G的size是D的size的1/4到1/2效果最好。作者猜测太强的G会阻止D有效地学习。具体而言是D的大量参数用来给G建模，而非真实数据分布。

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录