pandas

1基本属性：
2操作：
3缺失值和异常值处理：

import pandas as pd

1基本属性：

1.1 series 一维数组能保存不同种类的数据类型

s=np.Series([1,2,3]) 空值是np.nan
也可以通过字典添加
如果希望索引不是数字而是其他，可以在后面加上 index=[‘a’,’ b’，’c’]等
或者s.index=[‘a’,’b’,’c’]但是要注意改变索引名称后，切片的时候是左闭右闭
s.values看到具体的值
切片：
s[ number1 :number2 ]

1.2 dateframe 二维表格数据

图像如下

注：index时间序列date，由pd.date_range( ‘201801’,periods=6)得来
竖着的是index,
横着的是columns
如果不指定行和列，默认从0开始

1.3数据的传入可以通过字典：

pd.DataFrame( {‘列1’：值，’列2’：值 })

1.4查看首尾数据：

.head( )默认查看前五行数据，改变就在括号内加数字
.tail( )最后五行数据

1.5查看类型：

.dtypes( )

1.6查看行和列：

2操作：

2.1读取excel表格：

pd.read_excel( ‘文件路径’)

2.2行操作：

.iloc( [ number]) 读取第number行的数据
.loc([ number]) 但是如果切片会左闭右闭

添加一行：

xx=xx.append( series类型变量) 这回返回一个新表
要记得改变数组的索引名字就是 xx.name=正确的索引名字
就是在那一行的所有属性都要有

删除一行：

xx=xx.drop( [number] )
删除后索引不再连续，可以xx.index=range(1,len(xx）

2.3列操作：

表格是一个二维数组，列就是一个维度
可以使用
xx[ ‘列1’,’列2’]得到列1和2 的数据
xx[ ‘列1’][ :5]返回第一列前4行数据

新增一列：

例如：
xx[ ‘列名字’]=range( 1,476445)

删除一列：

df=df.drop( ‘列名’，axis=1)

2.4取得某行某列的具体值：

xx.loc[ 行，列] 字符串记得加’ ‘

2.5限制条件拿到具体值：

xx[xx[‘ 列名’]==‘ 条件’]
xx[xx.列名==‘条件’]

多个条件：且& 或 |

3缺失值和异常值处理：

3.1方法：

3.2缺失值判断：

xx[xx[‘列名’].isnull( )]

3.3填充缺失值

xx[‘缺失值的列名’].fillna(填充值,inplace=True ) inplace代表在原始数据上进行改动
如果不在原数据进行改动，就xx2=xx[‘缺失值的列名’].fillna(填充值,inplace=True )

3.4删除缺失值

xx.dropna( )
如果有更多删除要求，在括号内写入下面三行

3.5处理异常值

如果异常值数量较少直接删除就可以；
否则就xx=xx[xx.列名>0]
数据保存：
xx.toexcel( ‘文件路径’)