数据统计
首先,让我们导入数据集:
import pandas as pd
path = r'D:\pandas\tmp\Students.xlsx' # 定义一个path,令他等于数据集的地址
data = pd.read_excel(path) # 导入Excel格式文件中的数据
1.data.mean()
- 得到数据框data中每一列的平均值
mean = data.mean()
print(mean)
"""
ID 10.5
Age 24.4
Score 75.0
dtype: float64
"""
2.data.corr()
- 得到数据框data中每一列与其他列的关系
corr = data.corr()
print(corr)
"""
ID Age Score
ID 1.000000 -0.02025 -0.038418
Age -0.020250 1.00000 0.066490
Score -0.038418 0.06649 1.000000
"""
3.data.count()
- 得到数据框data中每一列的非空值个数
count = data.count()
print(count)
"""
ID 20
Name 20
Age 20
Score 20
dtype: int64
"""
4.data.max()
- 得到数据框data中每一列的最大值
max = data.max()
print(max)
"""
ID 20
Name Student_020
Age 35
Score 100
dtype: object
"""
5.data.min()
- 得到数据框data每一列的最小值
min = data.min()
print(min)
"""
ID 1
Name Student_001
Age 16
Score 50
dtype: object
"""
6.data.median()
- 得到数据框data中每一列的中位数
median = data.median()
print(median)
"""
ID 10.5
Age 21.5
Score 75.0
dtype: float64
"""
7.data.std()
- 得到数据框data中每一列的标准差
std = data.std()
print(std)
"""
ID 5.916080
Age 7.029262
Score 16.441283
dtype: float64
"""
8.data.describe()
- 得到数据框data中每一列的描述性统计
describe = data.describe()
print(describe)
"""
ID Age Score
count 20.00000 20.000000 20.000000
mean 10.50000 24.400000 75.000000
std 5.91608 7.029262 16.441283
min 1.00000 16.000000 50.000000
25% 5.75000 18.750000 59.750000
50% 10.50000 21.500000 75.000000
75% 15.25000 31.250000 88.250000
max 20.00000 35.000000 100.000000
"""
数据导出
import pandas as pd
path = r'D:\pandas\tmp\Students.xlsx' # 定义一个path,令他等于数据集的地址
data = pd.read_excel(path) # 导入Excel格式文件中的数据
dataNew = data[['Age', 'Score']] # 拼接列名 生成新的DataFrame
out_path = r'C:\Users\Denve\Desktop\dataNew.xlsx' # 定义一个输出路径
dataNew.to_excel(out_path) # 将数据框中的数据导入到Excel格式的文件中