数据统计

首先,让我们导入数据集:

  1. import pandas as pd
  2. path = r'D:\pandas\tmp\Students.xlsx' # 定义一个path,令他等于数据集的地址
  3. data = pd.read_excel(path) # 导入Excel格式文件中的数据

1.data.mean()

  • 得到数据框data中每一列的平均值
  1. mean = data.mean()
  2. print(mean)
  3. """
  4. ID 10.5
  5. Age 24.4
  6. Score 75.0
  7. dtype: float64
  8. """

2.data.corr()

  • 得到数据框data中每一列与其他列的关系
  1. corr = data.corr()
  2. print(corr)
  3. """
  4. ID Age Score
  5. ID 1.000000 -0.02025 -0.038418
  6. Age -0.020250 1.00000 0.066490
  7. Score -0.038418 0.06649 1.000000
  8. """

3.data.count()

  • 得到数据框data中每一列的非空值个数
  1. count = data.count()
  2. print(count)
  3. """
  4. ID 20
  5. Name 20
  6. Age 20
  7. Score 20
  8. dtype: int64
  9. """

4.data.max()

  • 得到数据框data中每一列的最大值
  1. max = data.max()
  2. print(max)
  3. """
  4. ID 20
  5. Name Student_020
  6. Age 35
  7. Score 100
  8. dtype: object
  9. """

5.data.min()

  • 得到数据框data每一列的最小值
  1. min = data.min()
  2. print(min)
  3. """
  4. ID 1
  5. Name Student_001
  6. Age 16
  7. Score 50
  8. dtype: object
  9. """

6.data.median()

  • 得到数据框data中每一列的中位数
  1. median = data.median()
  2. print(median)
  3. """
  4. ID 10.5
  5. Age 21.5
  6. Score 75.0
  7. dtype: float64
  8. """

7.data.std()

  • 得到数据框data中每一列的标准差
  1. std = data.std()
  2. print(std)
  3. """
  4. ID 5.916080
  5. Age 7.029262
  6. Score 16.441283
  7. dtype: float64
  8. """

8.data.describe()

  • 得到数据框data中每一列的描述性统计
  1. describe = data.describe()
  2. print(describe)
  3. """
  4. ID Age Score
  5. count 20.00000 20.000000 20.000000
  6. mean 10.50000 24.400000 75.000000
  7. std 5.91608 7.029262 16.441283
  8. min 1.00000 16.000000 50.000000
  9. 25% 5.75000 18.750000 59.750000
  10. 50% 10.50000 21.500000 75.000000
  11. 75% 15.25000 31.250000 88.250000
  12. max 20.00000 35.000000 100.000000
  13. """

数据导出

  1. import pandas as pd
  2. path = r'D:\pandas\tmp\Students.xlsx' # 定义一个path,令他等于数据集的地址
  3. data = pd.read_excel(path) # 导入Excel格式文件中的数据
  4. dataNew = data[['Age', 'Score']] # 拼接列名 生成新的DataFrame
  5. out_path = r'C:\Users\Denve\Desktop\dataNew.xlsx' # 定义一个输出路径
  6. dataNew.to_excel(out_path) # 将数据框中的数据导入到Excel格式的文件中