NLP领域顶会

  • 自然语言处理领域
  • 机器学习领域
  • 深度学习
  • 数据挖掘领域
  • 人工智能领域

    • IJCAI
    • AAAI

      自然语言处理中的基础任务

  • 分词Lecture - 图1#card=math&code=%28word%5Cspace%20segmentation%29)

    • DEMO:最大匹配分词算法
      • 前向最大匹配 Lecture - 图2#card=math&code=%28forward-max%5Cspace%20matching%29) ``` 例子:我们经常有意见分歧 词典:[“我们”,”经常”,”有”,”有意见”,”意见”,”分歧”]

假设:max_len=5

步骤: 1. 我们经常有 × 我们经常 × 我们经 × 我们 ✔ 我们|经常有意见分歧 2. 经常有意见 × 经常有意 × 经常有 × 经常 ✔ 我们|经常|有意见分歧 3. 有意见分歧 × 有意见分 × 有意见 ✔ 我们|经常|有意见|分歧 4. 分歧 ✔ 我们|经常|有意见|分歧|

最终分词的结果:我们|经常|有意见|分歧|

  1. - 后向最大匹配 ![](https://g.yuque.com/gr/latex?(backward-max%5Cspace%20matching)#card=math&code=%28backward-max%5Cspace%20matching%29)
  2. - 问题:
  3. 1. 贪心策略 ![](https://g.yuque.com/gr/latex?%5CRightarrow#card=math&code=%5CRightarrow) 局部最优解
  4. 1. ![](https://g.yuque.com/gr/latex?OOV(Out-of-Vocabulary)#card=math&code=OOV%28Out-of-Vocabulary%29)
  5. 1. ![](https://g.yuque.com/gr/latex?Semantic#card=math&code=Semantic) ×
  6. - 分词算法
  7. - [![](https://g.yuque.com/gr/latex?Jieba#card=math&code=Jieba)](https://github.com/fxsjy/jieba)
  8. - [![](https://g.yuque.com/gr/latex?SnowNLP#card=math&code=SnowNLP)](https://github.com/isnowfy/snownlp)
  9. - [![](https://g.yuque.com/gr/latex?LTP#card=math&code=LTP)](http://www.ltp-cloud.com/)
  10. - [![](https://g.yuque.com/gr/latex?HanNLP#card=math&code=HanNLP)](https://github.com/hankcs/HanLP)
  11. - ![](https://g.yuque.com/gr/latex?Solved%5Cspace%20Problem#card=math&code=Solved%5Cspace%20Problem)
  12. - 词性标注![](https://g.yuque.com/gr/latex?(POS%5Cspace%20Tagging)#card=math&code=%28POS%5Cspace%20Tagging%29)<br />
  13. - ![](https://g.yuque.com/gr/latex?%C2%A0Sequence%5Cspace%20Labeling#card=math&code=%C2%A0Sequence%5Cspace%20Labeling) 当作分类问题
  14. - 每个单词独立地去做分类
  15. - 对于当前单词以及上下文单词 ![](https://g.yuque.com/gr/latex?(sliding%5Cspace%20window)#card=math&code=%28sliding%5Cspace%20window%29) 提取特征,并用这些特征去做分类
  16. - ![](https://g.yuque.com/gr/latex?%C2%A0Sequence%5Cspace%20Labeling#card=math&code=%C2%A0Sequence%5Cspace%20Labeling) 当作分类问题
  17. - 利用概率来表示序列
  18. - 考虑单词之间的前后依赖关系
  19. - 常见的算法:
  20. - 隐马尔可夫模型![](https://g.yuque.com/gr/latex?(Hidden%5Cspace%20Markov%5Cspace%20Model)#card=math&code=%28Hidden%5Cspace%20Markov%5Cspace%20Model%29)
  21. - 条件随机场![](https://g.yuque.com/gr/latex?(Conditional%5Cspace%20Random%5Cspace%20Fields)#card=math&code=%28Conditional%5Cspace%20Random%5Cspace%20Fields%29)
  22. - ![](https://g.yuque.com/gr/latex?Solved%5Cspace%20Problem#card=math&code=Solved%5Cspace%20Problem)
  23. - 命名实体识别 ![](https://g.yuque.com/gr/latex?(NER)#card=math&code=%28NER%29)<br />
  24. - 类似词性标注,也可以看作是序列标注的问题
  25. - 句法分析 ![](https://g.yuque.com/gr/latex?(Syntatic%5Cspace%20Analysis)#card=math&code=%28Syntatic%5Cspace%20Analysis%29)<br />
  26. - 对于一个句子的语法做分词,比如主谓宾

i.e.,他喜欢读书

  1. S
  2. / \
  3. / VP
  4. / / \ \

他/P 喜欢/V 读/V 书/N ```

  • 语义分析 Lecture - 图3#card=math&code=%28Semantic%5Cspace%20Analysis%29)
    • 主要有两个问题
      • 如何理解一个单词的意思?
      • 如何理解一个文本的意思?
    • 主要技术:
      • SkipGram,CBOW,Glove,ELMo,BERT,ALBERT
      • XLNet,GPT-2,GPT-3,Tiny-BERT

常见的应用

  • 写作助手Lecture - 图4#card=math&code=%28Spell%5Cspace%20Correction%29)
  • 文本分类
    • 情感分析Lecture - 图5#card=math&code=%28Sentiment%5Cspace%20Analysis%29)
    • 情绪分析Lecture - 图6#card=math&code=%28Emotion%5Cspace%20Analysis%29)
    • 主题分类Lecture - 图7
  • 信息检索Lecture - 图8#card=math&code=%28Information%5Cspace%20Retrieval%29)
  • 问答系统Lecture - 图9#card=math&code=%28QA%29)
  • 自动生成文本摘要Lecture - 图10#card=math&code=%28Test%5Cspace%20Summary%29)
    • Lecture - 图11
    • Lecture - 图12
  • 机器翻译
    • Lecture - 图13
    • Lecture - 图14
  • 信息抽取

如何成为优秀的NLP人才

  1. 扎实的数学基础、统计基础、数据结构与算法
  2. 重视机器学习,理解核心的细节
  3. 自然语言相关技术
  4. 编程
  5. 读论文、复现论文!
  6. 搜索能力、检索能力