NLP初探
NLP初探……………………………………………………………………………………………………………… 1
1. 一、什么是自然语言处理……………………………………………………………………………… 3
1.1. 大家在平时日常生活中常用的表达方式,俗称讲人话……………………………. 3
2. 二、NLP的两大核心任务……………………………………………………………………………… 3
2.1. 1.NLU|NLI自然语言理解………………………………………………………………………… 3
2.1.1. 负责理解内容………………………………………………………………………………….. 4
2.2. 2.NLG自然语言生成………………………………………………………………………………. 7
2.2.1. 负责生成内容………………………………………………………………………………….. 7
2.2.2. 应用………………………………………………………………………………………………… 8
3. 三、NLP典型应用………………………………………………………………………………………… 8
3.1. 情感分析……………………………………………………………………………………………….. 9
3.2. 聊天机器人……………………………………………………………………………………………. 9
3.3. 语音识别……………………………………………………………………………………………….. 9
3.4. 机器翻译……………………………………………………………………………………………….. 9
3.5. NER命名实体识别………………………………………………………………………………….. 9
4. 四、NLP实现……………………………………………………………………………………………….. 9
4.1. 1.传统机器学习……………………………………………………………………………………. 10
4.1.1. [1]语料预处理……………………………………………………………………………….. 10
4.1.2. [2]特征工程…………………………………………………………………………………… 10
4.1.3. [3]选择分类器……………………………………………………………………………….. 11
4.2. 2.深度学习…………………………………………………………………………………………… 11
4.2.1. [1]语料预处理……………………………………………………………………………….. 11
4.2.2. [2]设计模式…………………………………………………………………………………… 12
4.2.3. [3]训练模型…………………………………………………………………………………… 12
5. 五、具体……………………………………………………………………………………………………. 12
5.1. 1.分词………………………………………………………………………………………………….. 12
5.1.1. 目的:细化粒度。词是表达完整含义的最小单位,字粒度太小;句子粒度太大,承载信息量过多。 13
5.1.2. 中英文分词的3个典型区别…………………………………………………………… 13
5.1.3. 中文分词的3大难点……………………………………………………………………… 13
5.1.4. 3种典型的分词方法………………………………………………………………………. 14
5.1.5. 中文分词工具………………………………………………………………………………… 15
5.1.6. 英文分词工具………………………………………………………………………………… 15
5.2. 2.词干提取、词形还原…………………………………………………………………………. 16
5.2.1. 目的:将长相不同,但是含义相同的词统一起来…………………………… 16
5.2.2. 什么是词干提取…………………………………………………………………………….. 16
5.2.3. 什么是词形还原…………………………………………………………………………….. 16
5.2.4. 3种主流的词干提取算法……………………………………………………………….. 16
5.2.5. 词形还原工具………………………………………………………………………………… 17
5.3. 3.词性标注 part of speech……………………………………………………………………… 17
5.3.1. 什么是词性标注…………………………………………………………………………….. 18
5.3.2. 词性标注的4种常见方法………………………………………………………………. 18
5.3.3. 词性标注工具………………………………………………………………………………… 19
5.4. 4.命名实体识别 named-entity recognition………………………………………………. 20
5.4.1. 识别文本中具有特定意义的实体,包括人名、地名、机构名等;识别自然文本中的实体指称的边界和类别 20
5.4.2. 4种常见的实现方式………………………………………………………………………. 20
5.4.3. 相关工具……………………………………………………………………………………….. 21

NLP初探 - 图1

1. 一、什么是自然语言处理

NLP初探 - 图2

1.1. 大家在平时日常生活中常用的表达方式,俗称讲人话

2. 二、NLP的两大核心任务

NLP初探 - 图3

2.1. 1.NLU|NLI自然语言理解

NLP初探 - 图4

2.1.1. 负责理解内容

NLP初探 - 图5

三次迭代:

[1]基于规则的方法

NLP初探 - 图6

CFG

JSGF

[2]基于统计的方法

NLP初探 - 图7

SVM

ME

[3]基于深度学习的方法

NLP初探 - 图8

CNN

RNN

LSTM

Transform

NLP初探 - 图9

并行计算能力及运算效率

NLP初探 - 图10
Transformer>CNN>RNN

任务综合特征提取能力

NLP初探 - 图11
Transformer>>原生CNN=原生RNN

长距离特征捕获能力

NLP初探 - 图12
Transformer>RNN>CNN

语义特征提取能力

NLP初探 - 图13
Transformer>>原生CNN=原生RNN

2.2. 2.NLG自然语言生成

NLP初探 - 图14

2.2.1. 负责生成内容

NLP初探 - 图15

[1]text-to-text:文本到语言的生成

[2]data-to-text:数据到语言的生成

2.2.2. 应用

NLP初探 - 图16

自动写新闻

聊天机器人

BI报告生成

3. 三、NLP典型应用

NLP初探 - 图17

3.1. 情感分析

3.2. 聊天机器人

3.3. 语音识别

3.4. 机器翻译

3.5. NER命名实体识别

4. 四、NLP实现

NLP初探 - 图18

4.1. 1.传统机器学习

NLP初探 - 图19

4.1.1. [1]语料预处理

NLP初探 - 图20

中文分词 -Chinese Word Segmentation

词性标注 -Parts of Speech

命名实体识别 -NER

去除停用词

4.1.2. [2]特征工程

4.1.3. [3]选择分类器

4.2. 2.深度学习

NLP初探 - 图21

4.2.1. [1]语料预处理

NLP初探 - 图22

分词 -Tokenization

词干提取 -Stemming

词形还原 -Lemmatization

词性标注 -Parts of Speech

命名实体识别 -NER

4.2.2. [2]设计模式

4.2.3. [3]训练模型

5. 五、具体

NLP初探 - 图23

5.1. 1.分词

NLP初探 - 图24

5.1.1. 目的:细化粒度。词是表达完整含义的最小单位,字粒度太小;句子粒度太大,承载信息量过多。

5.1.2. 中英文分词的3个典型区别

NLP初探 - 图25

[1]分词方式不同,中文更难

[2]英文单词有多种形态,需要进行词形还原和词干提取

[3]中文分词需要考虑粒度的问题

NLP初探 - 图26

粒度越大,表达意思就越准确,但是也会导致召回比较少。所以中文需要不同的场景和要求选择不同的粒度。这个英文中是没有的。

5.1.3. 中文分词的3大难点

NLP初探 - 图27

没有统一的标准

歧义词如何切分

新词的识别

5.1.4. 3种典型的分词方法

NLP初探 - 图28

词典匹配

基于统计

NLP初探 - 图29

HMM

CRF

SVM

基于深度学习

NLP初探 - 图30

LSTM+CRF

5.1.5. 中文分词工具

NLP初探 - 图31

1. Hanlp 2. Stanford 3.ansj分词器ړ

4.哈工大LTP 5.kcws分词器 6.jieba

5.1.6. 英文分词工具

NLP初探 - 图32

1.Keras 2.Spacy 3.Gensim 4.NLTK

5.2. 2.词干提取、词形还原

NLP初探 - 图33

5.2.1. 目的:将长相不同,但是含义相同的词统一起来

5.2.2. 什么是词干提取

NLP初探 - 图34

去除单词的前后缀得到词根的过程,比如去掉ed、s、ing

5.2.3. 什么是词形还原

NLP初探 - 图35

基于词典,将单词的复杂形态转变为最基础的形态,比如is、are、been转换为be

5.2.4. 3种主流的词干提取算法

NLP初探 - 图36

Porter

Snowball推荐

Lancaster

5.2.5. 词形还原工具

NLP初探 - 图37

NLTK库,包含单词的词汇数据库

5.3. 3.词性标注 part of speech

NLP初探 - 图38

5.3.1. 什么是词性标注

NLP初探 - 图39

以词的特点划分词类的根据

5.3.2. 词性标注的4种常见方法

NLP初探 - 图40

基于规则的词性标注方法

基于统计模型的词性标注方法

基于 统计方法和规则方法结合的词性方法

基于深度学习的词性标注方法

NLP初探 - 图41

LSTM+CRF

BiLSTM+CRF

5.3.3. 词性标注工具

NLP初探 - 图42

Jieba

SnowNlp

THULAC

StandfordCoreNLP

HanLP

NLTK

SpaCy

NLP初探 - 图43

不支持中文

5.4. 4.命名实体识别 named-entity recognition

NLP初探 - 图44

5.4.1. 识别文本中具有特定意义的实体,包括人名、地名、机构名等;识别自然文本中的实体指称的边界和类别

5.4.2. 4种常见的实现方式

NLP初探 - 图45

监督学习

半监督学习

无监督学习

混合方法

5.4.3. 相关工具

NLP初探 - 图46

NLTK

MALLET

StandfordCoreNER

HanLP

Crfsuite

SpaCy

NLP初探 - 图47

不支持中文