warm up;layernorm;batchnorm
pointwise和pairwise
实现Multi-Head-Attention
Tokenizer
jieba
CRF
Bert系列模型
https://zhuanlan.zhihu.com/p/149634836
- 计算attention score时除以根号D:缩小方差;防止softmax被push到梯度较小的区域
- 如何做mask
- padding mask:
- sequeece mask:
- 为什么要多头:不同的表示子空间里学习到相关的信息,希望每个注意力头,只关注最终输出序列中一个子空间,互相独立。其核心思想在于,抽取到更加丰富的特征信息
- 非线性来源:前馈层的gelu激活函数和self-attention,self-attention是非线性的
w2v,fastText
https://www.jianshu.com/p/ed15e2adbfad时间复杂度
如何减少训练好的神经网络的推理时间
优化算法
样本不平衡
链接
https://zhuanlan.zhihu.com/p/151412524对比学习作用
对比损失函数是一个具备困难负样本自发现性质的损失函数,关注困难样本的作用就是:对于那些已经远离的样本,不需要继续让其远离,而主要聚焦在如何使没有远离的那些的样本远离,从而使得到的表示空间更均匀(uniformity)。对比损失给予了更相似(困难)的负样本更大的远离该样本的梯度。
温度系数的作用是调节对困难样本的关注程度:越小的温度系数越关注于将本样本和最相似的其他样本分开。
小温度系数更关注于将与本样本相似的困难样本分开,因此往往可以得到更均匀的表示。然而困难样本往往是与本样本相似程度较高的,例如同一个类别的不同实例,即有很多困难负样本其实是潜在的正样本。过分强迫与困难样本分开会破坏学到的潜在语义结构。
退化问题:
- 温度系数—>0时,此时对比损失退化为只关注最困难的负样本的损失函数
- 温度系数—>inf时,对比损失对所有负样本的权重都相同,即对比损失失去了困难样本关注的特性。
