看完论文会有以下几种状态:

    1. 看的一知半解,反复看也没看懂,比如BERT的attention到底是怎么算的。
      1. 一上来直接读最新的论文当然是看不懂的。举个例子,BERT本质用的是Transformer的Encoder,而预训练的思想,来自很多论文,比如ELMO,GPT。Attention呢?很早在LSTM的encoder-decoder架构中就用到了,其实attention最早是用在cv领域的……往下扩展还有很多。
      2. 没有这些背景知识,直接看一篇巨佬的论文可以说是没有任何意义的,只是浪费时间。
    2. 知道了有一个新的模型,解决了什么问题,和其他哪些模型对比,取得了SOTA成绩。
      1. 看论文点到为止,知道有个什么模型,效果很好,解决了问题。然后去github搜复现(比如deepctr就封装的很好),readme写的很清楚,输入数据格式是什么样,直接调用(可能用于比赛),做个愉快的调包侠。其实这个状态是优于上一个状态的,实践是认识发展的动力。
      2. 这个状态不能持续太久,在你实践能力很强后,这种状态对你未来而言,就不能有任何提升了。
    3. 除了以上,详细了解了模型的结构,知道论文为什么这样设计。
      1. 当你完全能看懂论文,比如transformer,为啥attention要做scale,预训练样本如何构造,transormer在处理不同任务的区别是什么等等细节的时候,这是个非常好的状态,建议大家这个时候,可以好好看看源码。
    4. 除了以上,尝试复现整个模型,或模型的部分,去提高现有模型的泛化能力。
      1. 复现论文是一件非常有意思的事,当你完全领悟一篇论文的各个要点时,每个人都有能力去复现论文,不需要依赖于github的分享。能够在只有论文,和tensorflow官方文档的情况下,复现论文,或者融合论文中部分模型优化点,去优化现有模型。当然,很多时候可能不需要达到这种状态,看各位需求了。
      2. 为什么要去复现?因为在调用一个开源模型上,你不会比任何人更优秀,毕竟每个人都可以直接用。那么为什么比赛很多大佬能拿冠亚呢?我们看很多top方案的时候,发现或多或少都对模型进行了各种调整。如果仅仅把开源当作一个黑盒来用,你就只能在挖特征上努力了,而对于图像,nlp等比赛,给你挖特征的机会并不多。

    因为每个人情况不一样,其实还有些其他状态。建议大家看完论文,最好总结下,自己究竟学到了什么。非常重要的是,如果你是一个初学者,建议多阅读巨佬的著作,而不是直接看论文,每本书都会介绍很多经典的模型,并给出该模型出自的论文,大家结合着书去翻阅论文,这样效率才是最高的。

    https://cloud.tencent.com/developer/article/1824366