Pandas是什么

  • Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。用于数据挖掘和数据分析,同时也提供数据清洗功能。

    数据读取

  • 读取csv格式数据

    1. import pandas as pd
    2. df = pd.read_csv('xxxx.csv')

    数据预览

  • 查看前n行数据

    1. df.head(n) # 当不传入n时,默认显示先5行数据
  • 查看后n行数据

    1. df.tail(n) # 当不传入n时,默认显示后5行数据
  • 查看数据的基本信息 ```python

df.info()

  1. - 查看数据的统计信息
  2. ```python
  3. df.describe()
  4. '''
  5. count : 样本数据大小
  6. mean : 样本数据的平均值
  7. std : 样本数据的标准差
  8. min : 样本数据的最小值
  9. 25% : 样本数据25%的时候的值
  10. 50% : 样本数据50%的时候的值
  11. 75% : 样本数据75%的时候的值
  12. max : 样本数据的最大值
  13. '''
  • 查看数据是否为空

    1. df.isnull().head()
  • 查看列名

    1. df.columns
  • 查看索引

    1. df.index

    数据预处理

  • 更改列名 ```python

    方式一:读取数据时,通过read_csv中的names参数来设置列名

    df = pd.read_csv(‘xxxx.csv’, names=[‘col1’, ‘col2’, ‘col3’])

方式二:读取数据后,通过df.columns来修改

df.columns = [‘col1’, ‘col2’, ‘col3’]

方式二:读取数据后,通过df.rename来修改

df.rename(columns={‘old_col1’:’col1’, ‘old_col2’:’col2’}, inplace = True)

  1. - 更改索引
  2. ```python
  3. # 方式一:df.rename
  4. df.rename({0:'index1'},inplace=True)
  5. # 方式二:通过df.index设置
  6. df.index = ['index1', 'index2']

筛选数据

  • 通过行筛选 ```python

    筛选 row1—row2之间的数据

    df.loc[row1:row2]

筛选 row1中,col1,col2列数据

df.loc[row1:row2,[‘col1’, ‘col2’]]

  1. - 通过列筛选
  2. ```python
  3. # 选取col1列的数据
  4. # 方式一:
  5. df['col1']
  6. # 方式二:
  7. df.col1
  • 通过值筛选数据 ```python

    选取col1中大于10的数据

    df[df.col1>10]

选取col1中大于10且小于20的数据

df[df.col1>10 & df.col1<20]

  1. <a name="SDq9H"></a>
  2. # 删除列
  3. ```python
  4. # 删除 col1,col2列的数据
  5. # 方式一:
  6. df.drop(['col1','col2'],axis=1, inplace=True)
  7. # 方式二:
  8. del df['col1', 'col2']

数据排序

  • 按列索引排序

    1. df.sort_index(axis=1) #默认是升序排序,可通过ascending参数指定拍下顺序
  • 按行索引排序

    1. df.sort_index(axis=0) #默认是升序排序,可通过ascending参数指定排序方式
  • 按列值排序 ```python

    按col1,col2列的降序排序

    ascending可以传入list分别指的不同列的排序方式

    df.sort_values(by=[‘col1’, ‘col1’], ascending=False)

  1. <a name="lTbi1"></a>
  2. # 数据运算
  3. - 四则运算
  4. ```python
  5. df1+df2
  6. df1-df2
  7. df1 / df2
  8. df1 * df2
  • 查看统计值 ```python

    计算col的最大值/最小值

    df[‘col’].max() df[‘col’].min()

计算col的和

df[‘col’].sum()

计算col的个数

df[‘col’].count() ```