A Primer in BERTology: What We Know About How BERT Works

句法，语法信息

BERT的embedding里含有句法，词性信息，Attention weight里没有
BERT的token表示还是很不错的
上面好像在说bert很擅长句法，词性信息，也能够很好的发现否定词，但是日常可以知道bert对于否定词非常的不敏感，比如说加上否定词和改变词语的顺序，对于人来说语义都很大的改变了，但是bert经常不会变化判断
说明了要么是学习到的句法信息不够，或者说完成这些下游任务没有很好的利用已经学习到的句法信息。
在下游任务中间使用Parsing任务fine-tuing不会提升下游任务。

语义信息

bert在MLM任务上表现了对一些词语的偏好，即便是错误的

bert编码包含了实体的类别等等的信息

尽管bert在命名实体识别工作上的F1非常的高，但是鲁棒性其实很差，稍微修改就会改变预测的结果

实际/物理世界知识
对于一些实体类别，bert可以表现的很好
bert往往能够猜出一些属性，但是不能够猜出比较复杂的关系

暂时看到这里，25页是在是太多了。

A Primer in BERTology: What We Know About How BERT Works

自然语言处理

22.02.19 A Primer in BERTology: What We Know About How BERT Works

句法，语法信息

语义信息