数据统计
首先,让我们导入数据集:
import pandas as pdpath = r'D:\pandas\tmp\Students.xlsx' # 定义一个path,令他等于数据集的地址data = pd.read_excel(path) # 导入Excel格式文件中的数据
1.data.mean()
- 得到数据框data中每一列的平均值
mean = data.mean()print(mean)"""ID 10.5Age 24.4Score 75.0dtype: float64"""
2.data.corr()
- 得到数据框data中每一列与其他列的关系
corr = data.corr()print(corr)"""ID Age ScoreID 1.000000 -0.02025 -0.038418Age -0.020250 1.00000 0.066490Score -0.038418 0.06649 1.000000"""
3.data.count()
- 得到数据框data中每一列的非空值个数
count = data.count()print(count)"""ID 20Name 20Age 20Score 20dtype: int64"""
4.data.max()
- 得到数据框data中每一列的最大值
max = data.max()print(max)"""ID 20Name Student_020Age 35Score 100dtype: object"""
5.data.min()
- 得到数据框data每一列的最小值
min = data.min()print(min)"""ID 1Name Student_001Age 16Score 50dtype: object"""
6.data.median()
- 得到数据框data中每一列的中位数
median = data.median()print(median)"""ID 10.5Age 21.5Score 75.0dtype: float64"""
7.data.std()
- 得到数据框data中每一列的标准差
std = data.std()print(std)"""ID 5.916080Age 7.029262Score 16.441283dtype: float64"""
8.data.describe()
- 得到数据框data中每一列的描述性统计
describe = data.describe()print(describe)"""ID Age Scorecount 20.00000 20.000000 20.000000mean 10.50000 24.400000 75.000000std 5.91608 7.029262 16.441283min 1.00000 16.000000 50.00000025% 5.75000 18.750000 59.75000050% 10.50000 21.500000 75.00000075% 15.25000 31.250000 88.250000max 20.00000 35.000000 100.000000"""
数据导出
import pandas as pdpath = r'D:\pandas\tmp\Students.xlsx' # 定义一个path,令他等于数据集的地址data = pd.read_excel(path) # 导入Excel格式文件中的数据dataNew = data[['Age', 'Score']] # 拼接列名 生成新的DataFrameout_path = r'C:\Users\Denve\Desktop\dataNew.xlsx' # 定义一个输出路径dataNew.to_excel(out_path) # 将数据框中的数据导入到Excel格式的文件中
