案例数据

image.png

停用词

image.png

  • 与自己关注的内容无关的词汇
  • 避免对统计分析干扰
  • 可以直接搜停词表

    关键词提取(Tf-idf)

  • 关键词提取

image.png
image.png

  • 在所有的文档库中出现这个词的个数

image.png
image.png

相似度

image.png
image.png

  • 存在缺点,词频破环了原来的语义
  • 可以考虑wordIvec Gensim

image.png

Python案例

image.png

  • 直接去掉缺失值

image.png

分词

  • 使用结巴分词器 pip install jieba

image.png

  • 先进行数据转化,转换为list格式,分词器要求

image.png
image.png
将分词结果转换为datafram格式

数据清洗

  • 去掉停用词
  • 可以在网上下载停词表

image.png
image.png
image.png
image.png
image.png

计算词频(Wordcloud)

image.png
image.png
image.png

  • 需要安装Wordcloud的库

image.png

TF-IDF

image.png

LDA主题模型

  • 不知道这些新闻有哪些主题可以划分
  • 可以指定要划分类型的数量

gensim库(自然语言处理)

image.png

  • 每一篇文章都必须分好词了

image.png

  • 指定分类数目

image.png

  • 打印第一类主题中最具代表性的五个词

image.png

  • 打印所有的主题

image.png

分类准备

image.png

  • 列举label中不重复的值

image.png

  • 离散数据映射

image.png

  • 划分数据集

image.png
image.png

  • 向量映射举例
  • 使用向量构造器

image.png

  • 支持词的组合,使向量更复杂

image.png

  • 转换格式,list of list转成字符串组成的list

image.png
image.png

基本贝叶斯算法

image.png

测试

image.png

  • 基本贝叶斯测试结果

image.png

TF-IDF构造向量

image.png
image.png