NLP初探
NLP初探……………………………………………………………………………………………………………… 1
1. 一、什么是自然语言处理……………………………………………………………………………… 3
1.1. 大家在平时日常生活中常用的表达方式,俗称讲人话……………………………. 3
2. 二、NLP的两大核心任务……………………………………………………………………………… 3
2.1. 1.NLU|NLI自然语言理解………………………………………………………………………… 3
2.1.1. 负责理解内容………………………………………………………………………………….. 4
2.2. 2.NLG自然语言生成………………………………………………………………………………. 7
2.2.1. 负责生成内容………………………………………………………………………………….. 7
2.2.2. 应用………………………………………………………………………………………………… 8
3. 三、NLP典型应用………………………………………………………………………………………… 8
3.1. 情感分析……………………………………………………………………………………………….. 9
3.2. 聊天机器人……………………………………………………………………………………………. 9
3.3. 语音识别……………………………………………………………………………………………….. 9
3.4. 机器翻译……………………………………………………………………………………………….. 9
3.5. NER命名实体识别………………………………………………………………………………….. 9
4. 四、NLP实现……………………………………………………………………………………………….. 9
4.1. 1.传统机器学习……………………………………………………………………………………. 10
4.1.1. [1]语料预处理……………………………………………………………………………….. 10
4.1.2. [2]特征工程…………………………………………………………………………………… 10
4.1.3. [3]选择分类器……………………………………………………………………………….. 11
4.2. 2.深度学习…………………………………………………………………………………………… 11
4.2.1. [1]语料预处理……………………………………………………………………………….. 11
4.2.2. [2]设计模式…………………………………………………………………………………… 12
4.2.3. [3]训练模型…………………………………………………………………………………… 12
5. 五、具体……………………………………………………………………………………………………. 12
5.1. 1.分词………………………………………………………………………………………………….. 12
5.1.1. 目的:细化粒度。词是表达完整含义的最小单位,字粒度太小;句子粒度太大,承载信息量过多。 13
5.1.2. 中英文分词的3个典型区别…………………………………………………………… 13
5.1.3. 中文分词的3大难点……………………………………………………………………… 13
5.1.4. 3种典型的分词方法………………………………………………………………………. 14
5.1.5. 中文分词工具………………………………………………………………………………… 15
5.1.6. 英文分词工具………………………………………………………………………………… 15
5.2. 2.词干提取、词形还原…………………………………………………………………………. 16
5.2.1. 目的:将长相不同,但是含义相同的词统一起来…………………………… 16
5.2.2. 什么是词干提取…………………………………………………………………………….. 16
5.2.3. 什么是词形还原…………………………………………………………………………….. 16
5.2.4. 3种主流的词干提取算法……………………………………………………………….. 16
5.2.5. 词形还原工具………………………………………………………………………………… 17
5.3. 3.词性标注 part of speech……………………………………………………………………… 17
5.3.1. 什么是词性标注…………………………………………………………………………….. 18
5.3.2. 词性标注的4种常见方法………………………………………………………………. 18
5.3.3. 词性标注工具………………………………………………………………………………… 19
5.4. 4.命名实体识别 named-entity recognition………………………………………………. 20
5.4.1. 识别文本中具有特定意义的实体,包括人名、地名、机构名等;识别自然文本中的实体指称的边界和类别 20
5.4.2. 4种常见的实现方式………………………………………………………………………. 20
5.4.3. 相关工具……………………………………………………………………………………….. 21