安装pandas

通过python pip安装pandas

  1. pip install pandas

pandas数据结构

pandas常用数据结构包括:Series和DataFrame

Series

Series是一种一维的数组型对象,包含一个值序列(与numpy中的数据类型相似),数据标签(称为索引(index))。

  1. import pandas as pd
  2. # 创建Series对象
  3. obj=pd.Series([4,5,6,7])
  4. print(obj)
  1. 0 4
  2. 1 5
  3. 2 6
  4. 3 7
  5. dtype: int64

左边为索引,右边为值,默认索引从0到n-1(n为数据长度),可以通过values属性和index属性分别获得Series对象的值和索引

  1. print(obj.values)
  1. array([4, 5, 6, 7], dtype=int64)
  1. print(obj.index)
  1. RangeIndex(start=0, stop=4, step=1)
  1. # 自定义索引序列
  2. obj2=pd.Series([4,5,6,7],index=['a','b','d','e'])
  3. print(obj2,'\n')
  4. # 输出索引
  5. print(obj2.index)
  1. a 4
  2. b 5
  3. d 6
  4. e 7
  5. dtype: int64
  6. Index(['a', 'b', 'd', 'e'], dtype='object')

Series对象可以使用标签来进行索引

  1. # 输出索引为b的元素
  2. print(obj2['b'])
  3. # 输出索引为a,d,e的元素
  4. print('* '*10)
  5. print(obj2[['a','d','e']])
  1. 5
  2. * * * * * * * * * *
  3. a 4
  4. d 6
  5. e 7
  6. dtype: int64

Series对象也能使用布尔值进行过滤

  1. # 输出值大于5的元素
  2. print(obj2[obj2>5])
  1. d 6
  2. e 7
  3. dtype: int64

DataFrame

DataFrame表示矩阵的数据表,包含已排序的列集合,每一列可以是不同的的值类型(数值、字符串、布尔值等)

DataFrame既有行索引,也有列索引,可以被视为一个共享相同索引的Series的字典

  1. # 创建DataFrame对象
  2. data={'age':[18,18,18,20,20,20],'name':['a','b','c','aa','bb','cc'],'height':[180,180,180,182,182,182]}
  3. frame=pd.DataFrame(data)
  4. print(frame)
  1. age name height
  2. 0 18 a 180
  3. 1 18 b 180
  4. 2 18 c 180
  5. 3 20 aa 182
  6. 4 20 bb 182
  7. 5 20 cc 182

DataFrame也可以用columns参数指定列索引顺序排列

  1. frame=pd.DataFrame(data,columns=['name','age','height'])
  2. print(frame)
  1. name age height
  2. 0 a 18 180
  3. 1 b 18 180
  4. 2 c 18 180
  5. 3 aa 20 182
  6. 4 bb 20 182
  7. 5 cc 20 182

如果传的列参数不在字典中,将会出现缺失值

  1. frame=pd.DataFrame(data,columns=['name','age','height','addition'])
  2. print(frame)
  3. print(frame.columns)
  1. name age height addition
  2. 0 a 18 180 NaN
  3. 1 b 18 180 NaN
  4. 2 c 18 180 NaN
  5. 3 aa 20 182 NaN
  6. 4 bb 20 182 NaN
  7. 5 cc 20 182 NaN
  8. Index(['name', 'age', 'height', 'addition'], dtype='object')

DataFrame的一列可以按字典型标记或属性那样索引为Series

  1. frame=pd.DataFrame(data,columns=['name','age','height'])
  2. print(frame['name'])
  3. print(frame.age)
  1. 0 a
  2. 1 b
  3. 2 c
  4. 3 aa
  5. 4 bb
  6. 5 cc
  7. Name: name, dtype: object
  8. 0 18
  9. 1 18
  10. 2 18
  11. 3 20
  12. 4 20
  13. 5 20
  14. Name: age, dtype: int64

行也可以通过位置或特殊属性loc进行索引

  1. frame=pd.DataFrame(data,columns=['name','age','height'])
  2. print(frame.loc[2])
  1. name c
  2. age 18
  3. height 180
  4. Name: 2, dtype: object