作为一个入坑NLP一年的人,成长之路崎岖又坎坷,在这里我结合这一年的学习经历谈谈如何成为一个NLPer,对NLP感兴趣的学弟学妹可以参考一下。

一.概述

我将从以下几个方面介绍:
(1)编程语言
(2)NLP基础知识
(3)文本的向量化表示
(4)机器学习算法
(5)深度学习算法
(6)知识图谱
(7)项目实战

二.编程语言

大多数公司要求会Python,c++,一般会Python就OK了,建议先学Python基础知识,然后先刷剑指offer,再leetcode编程题,按类别刷,比如动态规划、列表、二叉树等,每个类别刷10道,刷个150道就差不多了。虽然很多,但是每天刷一点,等工作之前刷完就行。这里附上链接:剑指offer答案剑指offer官网LeetCode答案LeetCode官网

三.NLP基础知识

这一步部分主要是NLP的一些基本任务以及应用场景。
1.NLP常见的基本任务:分词,词性标注、命名实体识别、句法分析,关键词提取等。
2.NLP应用:文本分类、情感分析、智能问答、机器翻译等。
推荐书籍:Python自然语言处理实战核心技术与算法。

四.文本的向量化表示

文本的向量化表示也叫词向量或词嵌入。
文本的静态词向量表示:one-hot、词袋模型(BOW)、n-gram模型、word2vec、fasttext、glove等。
文本的动态词向量表示:Bert,GPT,ELMO等。
静态与动态的区别在于:静态词向量是提前训练好词向量,然后用的时候加载就行了;动态词向量是在训练模型的时候会通过反向传播更新词向量的参数值。
参考学习资料:https://github.com/NLP-LOVE/ML-NLP

五.机器学习算法

李航老师的统计学习方法里面介绍了很多机器学习模型,但是并不都会应用在NLP里面,这里选取几个常用的算法重点学习。
1.机器学习框架:sklearn
2.NLP中会用到的算法:逻辑回归(LR)、支持向量机(SVM)、隐马尔可夫模型(HMM)、条件随机场(CRF)、决策树(DT)等。
参考学习资料:https://github.com/NLP-LOVE/ML-NLP

六.深度学习算法

深度学习用的应该是比较多的,主要有以下内容:
1.深度学习框架:TensorFlow、pytorch,建议使用pytorch,两者都会更好,一般会一个就行。
2.NLP中会用到的算法:卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM以及其变种GRU)、序列到序列模型(seq2seq)、自注意力模型(Self-attention)、Transformer(重要)、Bert(重要,Bert家族的模型都可以了解一下),XLnet,最近新发的论文也了解一下。
参考学习资料:https://github.com/NLP-LOVE/ML-NLP
博客:https://wmathor.com/index.php/archives.html
b站(主要看一些深度学习模型的pytorch实现):https://space.bilibili.com/181990557/
NLP预训练模型:Huggingface
常用的中文预训练语言模型:https://github.com/ymcui?tab=overview&from=2018-12-01&to=2018-12-31

七.知识图谱

知识图谱应用比较广泛,在推荐,搜索,问答等领域都有相应的应用,也是我最近一直在学的东西,但还不是很了解。大概分以下几个方面:
知识获取:获取文本数据(一般公司都有,没有的话还做什么NLP呢!)
知识表示:常用三元组表示(实体1,关系,实体2)
知识抽取:实体抽取(命名实体识别),关系抽取(抽取实体与实体之间的关系),事件抽取
知识储存:将抽取的知识储存起来。(这个要学neo4j,py2neo这些东西)
学习资料:http://kw.fudan.edu.cn/workshop/kgbook

八.项目实战

(1)中文新闻文本分类:https://zhuanlan.zhihu.com/p/73176084
(2)命名实体识别:https://zhuanlan.zhihu.com/p/61227299
(3)CCF贝壳房产聊天问答匹配比赛:https://zhuanlan.zhihu.com/p/312339144

结语

以上便是我个人对于NLP学习的一些经验,仅供参考,大家可以参考以上学习资料学习,当然也可以自己搜集资料,有什么不会的多去知乎、CSDN、github上面查,然后多积累,多总结。对于论文,大家多向袁老师请教,因为我自己还没有小论文,论文不是必备项但是是加分项,大家尽量还是要发点儿好论文。最后,如果大家决定了要学NLP,就要坚定信念,不畏艰难的走下去,知乎上面会有各种劝退,不要理,我之前有一段时间就是被劝退放弃了一段时间,浪费了很多时间。学弟学妹们,冲起来!