Electra GAN
    输入 真实文本 噪声
    生成器和判别器 生成器目标是最大似然函数,和判别器无交互 生成器尽可能欺骗判别器
    梯度传播 判别器梯度无法传播到生成器 判别器梯度可以传播到生成器
    特殊情况 生成器预测过程中可能预测真实的token
    • 训练细节

    小的generator更有效,因此只共享了G和D的embedding。
    G的size是D的size的1/4到1/2效果最好。作者猜测太强的G会阻止D有效地学习。具体而言是D的大量参数用来给G建模,而非真实数据分布。