Pandas是什么
Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。用于数据挖掘和数据分析,同时也提供数据清洗功能。
数据读取
读取csv格式数据
import pandas as pddf = pd.read_csv('xxxx.csv')
数据预览
查看前n行数据
df.head(n) # 当不传入n时,默认显示先5行数据
查看后n行数据
df.tail(n) # 当不传入n时,默认显示后5行数据
查看数据的基本信息 ```python
df.info()
- 查看数据的统计信息```pythondf.describe()'''count : 样本数据大小mean : 样本数据的平均值std : 样本数据的标准差min : 样本数据的最小值25% : 样本数据25%的时候的值50% : 样本数据50%的时候的值75% : 样本数据75%的时候的值max : 样本数据的最大值'''
查看数据是否为空
df.isnull().head()
查看列名
df.columns
查看索引
df.index
数据预处理
更改列名 ```python
方式一:读取数据时,通过read_csv中的names参数来设置列名
df = pd.read_csv(‘xxxx.csv’, names=[‘col1’, ‘col2’, ‘col3’])
方式二:读取数据后,通过df.columns来修改
df.columns = [‘col1’, ‘col2’, ‘col3’]
方式二:读取数据后,通过df.rename来修改
df.rename(columns={‘old_col1’:’col1’, ‘old_col2’:’col2’}, inplace = True)
- 更改索引```python# 方式一:df.renamedf.rename({0:'index1'},inplace=True)# 方式二:通过df.index设置df.index = ['index1', 'index2']
筛选数据
筛选 row1中,col1,col2列数据
df.loc[row1:row2,[‘col1’, ‘col2’]]
- 通过列筛选```python# 选取col1列的数据# 方式一:df['col1']# 方式二:df.col1
选取col1中大于10且小于20的数据
df[df.col1>10 & df.col1<20]
<a name="SDq9H"></a># 删除列```python# 删除 col1,col2列的数据# 方式一:df.drop(['col1','col2'],axis=1, inplace=True)# 方式二:del df['col1', 'col2']
数据排序
按列索引排序
df.sort_index(axis=1) #默认是升序排序,可通过ascending参数指定拍下顺序
按行索引排序
df.sort_index(axis=0) #默认是升序排序,可通过ascending参数指定排序方式
按列值排序 ```python
按col1,col2列的降序排序
ascending可以传入list分别指的不同列的排序方式
df.sort_values(by=[‘col1’, ‘col1’], ascending=False)
<a name="lTbi1"></a># 数据运算- 四则运算```pythondf1+df2df1-df2df1 / df2df1 * df2
计算col的和
df[‘col’].sum()
计算col的个数
df[‘col’].count() ```
