A Primer in BERTology: What We Know About How BERT Works

句法,语法信息

BERT的embedding里含有句法,词性信息,Attention weight里没有
BERT的token表示还是很不错的
上面好像在说bert很擅长句法,词性信息,也能够很好的发现否定词,但是日常可以知道bert对于否定词非常的不敏感,比如说加上否定词和改变词语的顺序,对于人来说语义都很大的改变了,但是bert经常不会变化判断
说明了要么是学习到的句法信息不够,或者说完成这些下游任务没有很好的利用已经学习到的句法信息。
在下游任务中间使用Parsing任务fine-tuing不会提升下游任务。

语义信息

bert在MLM任务上表现了对一些词语的偏好,即便是错误的

bert编码包含了实体的类别等等的信息

尽管bert在命名实体识别工作上的F1非常的高,但是鲁棒性其实很差,稍微修改就会改变预测的结果

实际/物理世界知识
对于一些实体类别,bert可以表现的很好
bert往往能够猜出一些属性,但是不能够猜出比较复杂的关系

暂时看到这里,25页是在是太多了。

A Primer in BERTology: What We Know About How BERT Works