优点:
    1、解决了新问题:从图文到图,一定的场景编辑能力;
    2、从文到图,一定的创造力,设计师可能比较喜欢;
    3、VQ-VAE-2,可控的图片生成,带人工的语义编码会放到最后的生成decoder中




    缺点:
    模型还比较简单粗暴