warm up；layernorm；batchnorm
pointwise和pairwise
实现Multi-Head-Attention
Tokenizer
jieba
CRF
Bert系列模型
w2v,fastText
时间复杂度
如何减少训练好的神经网络的推理时间
优化算法
样本不平衡
链接
对比学习作用

warm up；layernorm；batchnorm

pointwise和pairwise

实现Multi-Head-Attention

Tokenizer

jieba

CRF

Bert系列模型

https://zhuanlan.zhihu.com/p/149634836

计算attention score时除以根号D：缩小方差；防止softmax被push到梯度较小的区域
如何做mask
1. padding mask：
2. sequeece mask：
为什么要多头：不同的表示子空间里学习到相关的信息，希望每个注意力头，只关注最终输出序列中一个子空间，互相独立。其核心思想在于，抽取到更加丰富的特征信息
非线性来源：前馈层的gelu激活函数和self-attention，self-attention是非线性的
w2v,fastText
https://www.jianshu.com/p/ed15e2adbfad
时间复杂度
如何减少训练好的神经网络的推理时间
优化算法
样本不平衡
链接
https://zhuanlan.zhihu.com/p/151412524
对比学习作用
对比损失函数是一个具备困难负样本自发现性质的损失函数，关注困难样本的作用就是：对于那些已经远离的样本，不需要继续让其远离，而主要聚焦在如何使没有远离的那些的样本远离，从而使得到的表示空间更均匀(uniformity)。对比损失给予了更相似（困难）的负样本更大的远离该样本的梯度。
温度系数的作用是调节对困难样本的关注程度：越小的温度系数越关注于将本样本和最相似的其他样本分开。
小温度系数更关注于将与本样本相似的困难样本分开，因此往往可以得到更均匀的表示。然而困难样本往往是与本样本相似程度较高的，例如同一个类别的不同实例，即有很多困难负样本其实是潜在的正样本。过分强迫与困难样本分开会破坏学到的潜在语义结构。
退化问题：

温度系数—>0时，此时对比损失退化为只关注最困难的负样本的损失函数
温度系数—>inf时，对比损失对所有负样本的权重都相同，即对比损失失去了困难样本关注的特性。

机器学习

机器学习面试题

warm up；layernorm；batchnorm

pointwise和pairwise

实现Multi-Head-Attention

Tokenizer

jieba

CRF

Bert系列模型

w2v,fastText

时间复杂度

如何减少训练好的神经网络的推理时间

优化算法

样本不平衡

链接

对比学习作用