中文分词
import jieba
- 【全模式】
- 【精确模式】
- 【新词识别】
- 【搜索引擎模式】
社交网络语言的Tokenize
- RE
- 表情符号怎么处理?
- lemma
- POS Tag
- stopwords
什么是自然语言处理?
文本预处理让我们得到什么?
NTLK在NLP上的经典应用
- 情感分析
- 文本相似度
- 文本分类
情感分析
最简单的是Sentiment Dictionary
其本质上是“关键词”打分机制 | Words | Score | | :—-: | :—-: | | like | 1 | | good | 2 | | bad | -2 | | terrible | -3 |
英文:AFINN-11
- 中文:
- Hownet —> 知网
- 同义词词林 —> 哈工大
- NTUSD —> 台湾大学
存在的主要问题:
- 这个模型不具备“学习”能力
- 无法处理新词,需要持续维护
- 特殊词汇无法处理
- 本质上没有分析“语义”