数据

df是一个dateframe

查看格式:

df[‘列名’].dtype

数据格式转换:

df[‘列名’]=df[‘列名’].astype(基本数据)

排序

xx.sort_values(by=’列名’,ascending=True) //默认升序排列,加那个ascending=False就是降序排列

多值排序

xx.sort_values(by=[‘列名1’,’列名2’],ascending=True) 优先列名1,其次列名2

基本统计分析

基本信息

xx.describe( )
最值:
xx[‘列名’].max()
xx[‘列名’].min()
xx[‘列名’].mean ()均值
xx[‘列名’].median () 中位数
xx[‘列名’].var( )方差
xx[‘列名’].std() 标准差
xx[‘列名’].sum() 求和
xx[[‘列名1’,’列名2 ‘]].corr( ) 相关系数
xx[[‘列名1’,’列名2 ‘]].cod( ) 协方差
xx[ ‘列名’].unique( )有多少种

替换

xx[‘列名’].replace( ‘ 想要替换的数据’,’ 替换后的数据’,inplace=True)

多个替换

xx[‘列名’].replace([a,b ],[c,d],inplace=True) a对应c,b对应d
xx.value_counts() 每一列相同值的统计,默认从大到小

保存

xx.to_excel(’文件路径‘)

数据透视表

pd.pivot_tabel(dateframe,index=[‘列名’] )

展示的表数据不充足

还可以设置展示的最大行和列
image.png

展示的太多只想要指定的列。

可以参照下面的例子
image.png

不同的统计值

image.png

如果不仅想要看合,还想看均值方差

aggfunc=[np.sum,np.mean]
image.png

综合数据

margins=True 加在后面,可以在透视表最后面得到综合数据,

数据多样化查看

image.png