用对比学习,从生成式的候选里重新选择。

    实验部分证明拟合reference更好了,一些Bias更像了。
    自回归倾向于Source的头部,然后reference没有那么明显这样

    总的感觉就一般般吧