import pandas as pd

1基本属性:

1.1 series 一维数组 能保存不同种类的数据类型

s=np.Series([1,2,3]) 空值是np.nan
也可以通过字典添加
如果希望索引不是数字而是其他,可以在后面加上 index=[‘a’,’ b’,’c’]等
或者s.index=[‘a’,’b’,’c’]但是要注意改变索引名称后,切片的时候是左闭右闭
s.values看到具体的值
切片:
s[ number1 :number2 ]

1.2 dateframe 二维表格数据

图像如下
image.png
注:index时间序列date,由pd.date_range( ‘201801’,periods=6)得来
竖着的是index,
横着的是columns
如果不指定行和列,默认从0开始

1.3数据的传入可以通过字典:

pd.DataFrame( {‘列1’:值,’列2’:值 })

1.4查看首尾数据:

.head( )默认查看前五行数据,改变就在括号内加数字
.tail( )最后五行数据

1.5查看类型:

.dtypes( )

1.6查看行和列:

image.png

2操作:

2.1读取excel表格:

pd.read_excel( ‘文件路径’)

2.2行操作:

.iloc( [ number]) 读取第number行的数据
.loc([ number]) 但是如果切片会左闭右闭

添加一行:

xx=xx.append( series类型变量) 这回返回一个新表
要记得改变数组的索引名字就是 xx.name=正确的索引名字
就是在那一行的所有属性都要有

删除一行:

xx=xx.drop( [number] )
删除后索引不再连续,可以xx.index=range(1,len(xx)

2.3列操作:

表格是一个二维数组,列就是一个维度
可以使用
xx[ ‘列1’,’列2’]得到列1和2 的数据
xx[ ‘列1’][ :5]返回第一列前4行数据

新增一列:

例如:
xx[ ‘列名字’]=range( 1,476445)

删除一列:

df=df.drop( ‘列名’,axis=1)

2.4取得某行某列的具体值:

xx.loc[ 行,列] 字符串记得加’ ‘

2.5限制条件拿到具体值:

xx[xx[‘ 列名’]==‘ 条件’]
xx[xx.列名==‘条件’]
image.png
多个条件:且& 或 |
image.png

3缺失值和异常值处理:

3.1方法:

image.png

3.2缺失值判断:

xx[xx[‘列名’].isnull( )]

3.3填充缺失值

xx[‘缺失值的列名’].fillna(填充值,inplace=True ) inplace代表在原始数据上进行改动
如果不在原数据进行改动,就xx2=xx[‘缺失值的列名’].fillna(填充值,inplace=True )

3.4删除缺失值

xx.dropna( )
如果有更多删除要求,在括号内写入下面三行
image.png

3.5处理异常值

如果异常值数量较少直接删除就可以;
否则就xx=xx[xx.列名>0]
数据保存:
xx.toexcel( ‘文件路径’)