RETRO,用小模型 + 数据检索的方案 首先利用BERT来获取Key 如何inference? 然后encoder输入retreving text,decoder输入input每隔若干层decoder会用一个cross attention和encoder建立联系