无标题

浏览 84 扫码分享 2023-11-25 09:43:22

中文分词
社交网络语言的Tokenize
什么是自然语言处理？
文本预处理让我们得到什么？
NTLK在NLP上的经典应用
- 情感分析
  - 最简单的是Sentiment Dictionary

中文分词

import jieba

【全模式】
【精确模式】
【新词识别】
【搜索引擎模式】

社交网络语言的Tokenize

RE
表情符号怎么处理？
lemma
POS Tag
stopwords

什么是自然语言处理？

文本预处理让我们得到什么？

erter

NTLK在NLP上的经典应用

情感分析
文本相似度
文本分类

情感分析

最简单的是Sentiment Dictionary

其本质上是“关键词”打分机制 | Words | Score | | :—-: | :—-: | | like | 1 | | good | 2 | | bad | -2 | | terrible | -3 |
英文：AFINN-11
中文：
- Hownet —> 知网
- 同义词词林 —> 哈工大
- NTUSD —> 台湾大学

存在的主要问题：

这个模型不具备“学习”能力
无法处理新词，需要持续维护
特殊词汇无法处理
本质上没有分析“语义”

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录