Insight & target problem
标注了新的数据
探究现在的Metric质量
Solution
- XSum的错误太多了太多了
- BART在CNNDM上主要错误是在,实体错误,共指错误,不在文中错误
- Pretrain model的错误更难判断了
- Xsum的错误更难发现
FactCC是很好判断语义层面的错误,在DisCourse层面巨烂
BERTScore匹配性,对于验证文章内容的指标好用。ROUGE-L也是很不错的,不过语义层面巨烂
DAE对Discourse类型的不错(废话,本来就是discourse类型的算法)