NLP领域顶会
- 自然语言处理领域
- 机器学习领域
- 深度学习
- ICLR ⭐
- 数据挖掘领域
人工智能领域
分词
#card=math&code=%28word%5Cspace%20segmentation%29)
- DEMO:最大匹配分词算法
- 前向最大匹配
#card=math&code=%28forward-max%5Cspace%20matching%29) ``` 例子:我们经常有意见分歧 词典:[“我们”,”经常”,”有”,”有意见”,”意见”,”分歧”]
- 前向最大匹配
- DEMO:最大匹配分词算法
假设:max_len=5
步骤: 1. 我们经常有 × 我们经常 × 我们经 × 我们 ✔ 我们|经常有意见分歧 2. 经常有意见 × 经常有意 × 经常有 × 经常 ✔ 我们|经常|有意见分歧 3. 有意见分歧 × 有意见分 × 有意见 ✔ 我们|经常|有意见|分歧 4. 分歧 ✔ 我们|经常|有意见|分歧|
最终分词的结果:我们|经常|有意见|分歧|
- 后向最大匹配 #card=math&code=%28backward-max%5Cspace%20matching%29)- 问题:1. 贪心策略  局部最优解1. #card=math&code=OOV%28Out-of-Vocabulary%29)1.  ×- 分词算法- [](https://github.com/fxsjy/jieba)- [](https://github.com/isnowfy/snownlp)- [](http://www.ltp-cloud.com/)- [](https://github.com/hankcs/HanLP)- - 词性标注#card=math&code=%28POS%5Cspace%20Tagging%29)<br />-  当作分类问题- 每个单词独立地去做分类- 对于当前单词以及上下文单词 #card=math&code=%28sliding%5Cspace%20window%29) 提取特征,并用这些特征去做分类-  当作分类问题- 利用概率来表示序列- 考虑单词之间的前后依赖关系- 常见的算法:- 隐马尔可夫模型#card=math&code=%28Hidden%5Cspace%20Markov%5Cspace%20Model%29)- 条件随机场#card=math&code=%28Conditional%5Cspace%20Random%5Cspace%20Fields%29)- - 命名实体识别 #card=math&code=%28NER%29)<br />- 类似词性标注,也可以看作是序列标注的问题- 句法分析 #card=math&code=%28Syntatic%5Cspace%20Analysis%29)<br />- 对于一个句子的语法做分词,比如主谓宾
i.e.,他喜欢读书
S/ \/ VP/ / \ \
他/P 喜欢/V 读/V 书/N ```
- 语义分析
#card=math&code=%28Semantic%5Cspace%20Analysis%29)
- 主要有两个问题
- 如何理解一个单词的意思?
- 如何理解一个文本的意思?
- 主要技术:
- SkipGram,CBOW,Glove,ELMo,BERT,ALBERT
- XLNet,GPT-2,GPT-3,Tiny-BERT
- 主要有两个问题
常见的应用
- 写作助手
#card=math&code=%28Spell%5Cspace%20Correction%29)
- 文本分类
- 情感分析
#card=math&code=%28Sentiment%5Cspace%20Analysis%29)
- 情绪分析
#card=math&code=%28Emotion%5Cspace%20Analysis%29)
- 主题分类
- 情感分析
- 信息检索
#card=math&code=%28Information%5Cspace%20Retrieval%29)
- 问答系统
#card=math&code=%28QA%29)
- 自动生成文本摘要
#card=math&code=%28Test%5Cspace%20Summary%29)
- 机器翻译
- 信息抽取
如何成为优秀的NLP人才
- 扎实的数学基础、统计基础、数据结构与算法
- 重视机器学习,理解核心的细节
- 自然语言相关技术
- 编程
- 读论文、复现论文!
- 搜索能力、检索能力
