NLP初探
NLP初探……………………………………………………………………………………………………………… 1
1.    一、什么是自然语言处理……………………………………………………………………………… 3
1.1.     大家在平时日常生活中常用的表达方式,俗称讲人话……………………………. 3
2.    二、NLP的两大核心任务……………………………………………………………………………… 3
2.1.     1.NLU|NLI自然语言理解………………………………………………………………………… 3
2.1.1.     负责理解内容………………………………………………………………………………….. 4
2.2.     2.NLG自然语言生成………………………………………………………………………………. 7
2.2.1.     负责生成内容………………………………………………………………………………….. 7
2.2.2.     应用………………………………………………………………………………………………… 8
3.     三、NLP典型应用………………………………………………………………………………………… 8
3.1.     情感分析……………………………………………………………………………………………….. 9
3.2.     聊天机器人……………………………………………………………………………………………. 9
3.3.     语音识别……………………………………………………………………………………………….. 9
3.4.     机器翻译……………………………………………………………………………………………….. 9
3.5.     NER命名实体识别………………………………………………………………………………….. 9
4.     四、NLP实现……………………………………………………………………………………………….. 9
4.1.     1.传统机器学习……………………………………………………………………………………. 10
4.1.1.     [1]语料预处理……………………………………………………………………………….. 10
4.1.2.     [2]特征工程…………………………………………………………………………………… 10
4.1.3.     [3]选择分类器……………………………………………………………………………….. 11
4.2.     2.深度学习…………………………………………………………………………………………… 11
4.2.1.     [1]语料预处理……………………………………………………………………………….. 11
4.2.2.     [2]设计模式…………………………………………………………………………………… 12
4.2.3.     [3]训练模型…………………………………………………………………………………… 12
5.     五、具体……………………………………………………………………………………………………. 12
5.1.     1.分词………………………………………………………………………………………………….. 12
5.1.1.     目的:细化粒度。词是表达完整含义的最小单位,字粒度太小;句子粒度太大,承载信息量过多。   13
5.1.2.     中英文分词的3个典型区别…………………………………………………………… 13
5.1.3.     中文分词的3大难点……………………………………………………………………… 13
5.1.4.     3种典型的分词方法………………………………………………………………………. 14
5.1.5.     中文分词工具………………………………………………………………………………… 15
5.1.6.     英文分词工具………………………………………………………………………………… 15
5.2.     2.词干提取、词形还原…………………………………………………………………………. 16
5.2.1.     目的:将长相不同,但是含义相同的词统一起来…………………………… 16
5.2.2.     什么是词干提取…………………………………………………………………………….. 16
5.2.3.     什么是词形还原…………………………………………………………………………….. 16
5.2.4.     3种主流的词干提取算法……………………………………………………………….. 16
5.2.5.     词形还原工具………………………………………………………………………………… 17
5.3.     3.词性标注 part of speech……………………………………………………………………… 17
5.3.1.     什么是词性标注…………………………………………………………………………….. 18
5.3.2.     词性标注的4种常见方法………………………………………………………………. 18
5.3.3.     词性标注工具………………………………………………………………………………… 19
5.4.     4.命名实体识别 named-entity recognition………………………………………………. 20
5.4.1.     识别文本中具有特定意义的实体,包括人名、地名、机构名等;识别自然文本中的实体指称的边界和类别 20
5.4.2.     4种常见的实现方式………………………………………………………………………. 20
5.4.3.     相关工具……………………………………………………………………………………….. 21




