读取数据

  1. import pandas as pd
  2. # 存储数据
  3. # 四条电影记录
  4. s1 = pd.Series(['楚门的世界', '泰坦尼克号', '霸王别姬', '你的名字'])
  5. s2 = pd.Series(['8.3', '9.5', '9.1', '8.7'])
  6. s3 = pd.Series(['672586', '1521451', '1538556', '1001049'])
  7. s4 = pd.Series(['剧情', '爱情', '爱情', '动画'])
  8. print(s1)
  9. print(s2)
  10. print(s3)
  11. print(s4)
  12. # 组成电影数据表
  13. df = pd.DataFrame(list(zip(s1, s2, s3, s4)),
  14. columns=['title', 'average', 'votes', 'genre'])
  15. # print(df)
  16. # 存储
  17. df.to_csv("file_name.csv")
  18. df.to_excel("file2.xlsx")
  19. # 读取
  20. print("==================")
  21. print(pd.read_csv("file_name.csv"))
  22. print(pd.read_excel("file2.xlsx"))

数据清理

重复值、缺失值处理

读取文件

image.png
查看基本信息(数据类型、行数、列数)
image.png

重复值

查重

查重统计(每列的重复总数)
image.png

某列查重
image.png

去重

如果不按列,针对所有字段完全相同的行进行删除,则直接drop_duplicates
image.png
image.png
image.png
image.png
image.png
image.png

缺失值

Pandas 主要用 np.nan 表示缺失数据。 计算时,默认不包含空值。

查看缺失值

按单元格查看
image.png
image.png
按列查看
image.png
按行查看
image.png
有缺失值的行、列
image.png

填充缺失值

image.png