6.数据统计与导出 - 《pandas》

数据统计
数据导出

数据统计

首先，让我们导入数据集：

import pandas as pd
path = r'D:\pandas\tmp\Students.xlsx'  # 定义一个path，令他等于数据集的地址
data = pd.read_excel(path)  # 导入Excel格式文件中的数据

1.data.mean()

得到数据框data中每一列的平均值

mean = data.mean()
print(mean)
"""
ID       10.5
Age      24.4
Score    75.0
dtype: float64
"""

2.data.corr()

得到数据框data中每一列与其他列的关系

corr = data.corr()
print(corr)
"""
             ID      Age     Score
ID     1.000000 -0.02025 -0.038418
Age   -0.020250  1.00000  0.066490
Score -0.038418  0.06649  1.000000
"""

3.data.count()

得到数据框data中每一列的非空值个数

count = data.count()
print(count)
"""
ID       20
Name     20
Age      20
Score    20
dtype: int64
"""

4.data.max()

得到数据框data中每一列的最大值

max = data.max()
print(max)
"""
ID                20
Name     Student_020
Age               35
Score            100
dtype: object
"""

5.data.min()

得到数据框data每一列的最小值

min = data.min()
print(min)
"""
ID                 1
Name     Student_001
Age               16
Score             50
dtype: object
"""

6.data.median()

得到数据框data中每一列的中位数

median = data.median()
print(median)
"""
ID       10.5
Age      21.5
Score    75.0
dtype: float64
"""

7.data.std()

得到数据框data中每一列的标准差

std = data.std()
print(std)
"""
ID        5.916080
Age       7.029262
Score    16.441283
dtype: float64
"""

8.data.describe()

得到数据框data中每一列的描述性统计

describe = data.describe()
print(describe)
"""
             ID        Age       Score
count  20.00000  20.000000   20.000000
mean   10.50000  24.400000   75.000000
std     5.91608   7.029262   16.441283
min     1.00000  16.000000   50.000000
25%     5.75000  18.750000   59.750000
50%    10.50000  21.500000   75.000000
75%    15.25000  31.250000   88.250000
max    20.00000  35.000000  100.000000
"""

数据导出

import pandas as pd
path = r'D:\pandas\tmp\Students.xlsx'  # 定义一个path，令他等于数据集的地址
data = pd.read_excel(path)  # 导入Excel格式文件中的数据
dataNew = data[['Age', 'Score']]  # 拼接列名 生成新的DataFrame
out_path = r'C:\Users\Denve\Desktop\dataNew.xlsx'  # 定义一个输出路径
dataNew.to_excel(out_path)  # 将数据框中的数据导入到Excel格式的文件中