1基本属性:
1.1 series 一维数组 能保存不同种类的数据类型
s=np.Series([1,2,3]) 空值是np.nan
也可以通过字典添加
如果希望索引不是数字而是其他,可以在后面加上 index=[‘a’,’ b’,’c’]等
或者s.index=[‘a’,’b’,’c’]但是要注意改变索引名称后,切片的时候是左闭右闭
s.values看到具体的值
切片:
s[ number1 :number2 ]
1.2 dateframe 二维表格数据
图像如下
注:index时间序列date,由pd.date_range( ‘201801’,periods=6)得来
竖着的是index,
横着的是columns
如果不指定行和列,默认从0开始
1.3数据的传入可以通过字典:
pd.DataFrame( {‘列1’:值,’列2’:值 })
1.4查看首尾数据:
.head( )默认查看前五行数据,改变就在括号内加数字
.tail( )最后五行数据
1.5查看类型:
1.6查看行和列:
2操作:
2.1读取excel表格:
2.2行操作:
.iloc( [ number]) 读取第number行的数据
.loc([ number]) 但是如果切片会左闭右闭
添加一行:
xx=xx.append( series类型变量) 这回返回一个新表
要记得改变数组的索引名字就是 xx.name=正确的索引名字
就是在那一行的所有属性都要有
删除一行:
xx=xx.drop( [number] )
删除后索引不再连续,可以xx.index=range(1,len(xx)
2.3列操作:
表格是一个二维数组,列就是一个维度
可以使用
xx[ ‘列1’,’列2’]得到列1和2 的数据
xx[ ‘列1’][ :5]返回第一列前4行数据
新增一列:
例如:
xx[ ‘列名字’]=range( 1,476445)
删除一列:
2.4取得某行某列的具体值:
xx.loc[ 行,列] 字符串记得加’ ‘
2.5限制条件拿到具体值:
xx[xx[‘ 列名’]==‘ 条件’]
xx[xx.列名==‘条件’]
多个条件:且& 或 |
3缺失值和异常值处理:
3.1方法:
3.2缺失值判断:
3.3填充缺失值
xx[‘缺失值的列名’].fillna(填充值,inplace=True ) inplace代表在原始数据上进行改动
如果不在原数据进行改动,就xx2=xx[‘缺失值的列名’].fillna(填充值,inplace=True )
3.4删除缺失值
xx.dropna( )
如果有更多删除要求,在括号内写入下面三行
3.5处理异常值
如果异常值数量较少直接删除就可以;
否则就xx=xx[xx.列名>0]
数据保存:
xx.toexcel( ‘文件路径’)
