数据

df是一个dateframe

查看格式：

df[‘列名’].dtype

数据格式转换：

df[‘列名’]=df[‘列名’].astype(基本数据)

排序

xx.sort_values（by=’列名’，ascending=True） //默认升序排列,加那个ascending=False就是降序排列

多值排序

xx.sort_values（by=[‘列名1’,’列名2’]，ascending=True）优先列名1，其次列名2

基本统计分析

基本信息

xx.describe( )
最值：
xx[‘列名’].max（）
xx[‘列名’].min（）
xx[‘列名’].mean （）均值
xx[‘列名’].median （）中位数
xx[‘列名’].var( )方差
xx[‘列名’].std() 标准差
xx[‘列名’].sum() 求和
xx[[‘列名1’,’列名2 ‘]].corr( ) 相关系数
xx[[‘列名1’,’列名2 ‘]].cod( ) 协方差
xx[ ‘列名’].unique( )有多少种

替换

xx[‘列名’].replace( ‘ 想要替换的数据’，’ 替换后的数据’，inplace=True)

多个替换

xx[‘列名’].replace([a,b ]，[c,d],inplace=True) a对应c，b对应d
xx.value_counts() 每一列相同值的统计，默认从大到小

保存

xx.to_excel(’文件路径‘)

数据透视表

pd.pivot_tabel(dateframe,index=[‘列名’] )

展示的表数据不充足

还可以设置展示的最大行和列

展示的太多只想要指定的列。

可以参照下面的例子

不同的统计值

如果不仅想要看合，还想看均值方差

aggfunc=[np.sum,np.mean]

综合数据

margins=True 加在后面，可以在透视表最后面得到综合数据，

python与爬虫

pandas2

数据