中文分词

  1. import jieba
  • 【全模式】
  • 【精确模式】
  • 【新词识别】
  • 【搜索引擎模式】

社交网络语言的Tokenize

  • RE
  • 表情符号怎么处理?
  • lemma
  • POS Tag
  • stopwords

什么是自然语言处理?

文本预处理让我们得到什么?

erter

NTLK在NLP上的经典应用

  • 情感分析
  • 文本相似度
  • 文本分类

情感分析

最简单的是Sentiment Dictionary
  • 其本质上是“关键词”打分机制 | Words | Score | | :—-: | :—-: | | like | 1 | | good | 2 | | bad | -2 | | terrible | -3 |

  • 英文:AFINN-11

  • 中文:
    • Hownet —> 知网
    • 同义词词林 —> 哈工大
    • NTUSD —> 台湾大学

存在的主要问题:

  1. 这个模型不具备“学习”能力
  2. 无法处理新词,需要持续维护
  3. 特殊词汇无法处理
  4. 本质上没有分析“语义”