强烈推荐!!!

跟着别人的代码研究一下自动求导的具体实现,其实代码量不多,但是以这种方式你就可以更好地了解深度学习底层运算的机制,对于不同的模块你会有一个具体的认知,而不是仅仅把他当作黑盒。
初级:https://github.com/karpathy/micrograd
中级:https://github.com/geohot/tinygrad
高级:https://github.com/google/jax (非常有兴趣可以看看,没必要,我也没实现过这个)

推荐刘建平的博客,https://www.cnblogs.com/pinard/category/894694.html,一些基础结构的正反向传播都有比较详细的公式推导,很详细。

前向传播

学好矩阵运算。

反向传播

强推矩阵求导术

https://zhuanlan.zhihu.com/p/24709748,别再一个值一个值地去求导了,看看矩阵求导术吧。