Insight & target problem

标注了新的数据
探究现在的Metric质量

Solution

image.png

  1. XSum的错误太多了太多了
  2. BART在CNNDM上主要错误是在,实体错误,共指错误,不在文中错误

image.png

  1. Pretrain model的错误更难判断了
  2. Xsum的错误更难发现

image.png
FactCC是很好判断语义层面的错误,在DisCourse层面巨烂
BERTScore匹配性,对于验证文章内容的指标好用。ROUGE-L也是很不错的,不过语义层面巨烂
DAE对Discourse类型的不错(废话,本来就是discourse类型的算法)

Highlight

Others