优点:1、解决了新问题:从图文到图,一定的场景编辑能力;2、从文到图,一定的创造力,设计师可能比较喜欢;3、VQ-VAE-2,可控的图片生成,带人工的语义编码会放到最后的生成decoder中 缺点:模型还比较简单粗暴