对于传统的方块数据(数据表)使用pandas基本上能够完成所用的数据处理工作,然鹅有时候我们需要进行分析的数据不全是数值或者例如国家、性别这样的比较短的文本,在进行情感分析的时候,我们分析的数据是长文本,有时候是我们的日常语言,这个时候pandas已经不再适用,我们需要新的处理工作与处理手段

单个特征中有多个分类的处理

有时候会碰到一些数据里面在一个单位里面有多个数据同时还有符号(把单位想象成excel表格里面的单元格,在一个单元格里面有chirs,liz,kurt….这些人名)这类的数据很难进行分析,可视化这些工作,所以我们进行了python标准库中的[[collections]]库,这个库可以提供除了python自带的列表,字典,元组。为了解决上述问题

  1. import collections
  2. from collections import Counter #For frequency count
  3. s = ""
  4. for i in store.Languages:
  5. s=s+","+str(i)
  6. s=s.strip(",")
  7. frequency_count = Counter(s.split(","))
  8. most_20_word = [i[0] for i in frequency_count.most_common(20)]
  9. most_20_word_frequency = [i[1] for i in frequency_count.most_common(20)]
  10. plt.figure(figsize=(12,7))
  11. sns.barplot(x=most_20_word_frequency,y=most_20_word)
  12. plt.show()

在上述代码中通过collections库中的Counter进行计数统计,使用了一个for循环遍历Language这列中的各个值,将每个值里面的各种值(EN、CH、DE…)这些语言给传入一个组合数据中,并且统计数量,进行 可视化
journals_2021_02_01_1612168424578_0.png