去掉某列重复的数据
df['Seqno'].drop_duplicates()
df.drop_duplicates(['Seqno'])
pandas 索引与列相互转化
列转为索引
df.set_index('date', inplace=True) # column 改为 index
索引转为列
df['index'] = df.index
df.reset_index() # (all)index 改为 column
df.reset_index(level=0, inplace=True) # (the first)index 改为 column
df.reset_index(level=['tick', 'obs'])
df['si_name'] = df.index.get_level_values('si_name') # where si_name is the name of the subindex.
修改数据类型
使用 to_numeric
转为数值
默认情况下,它不能处理字母型的字符串’pandas’
pd.to_numeric(s) # or pd.to_numeric(s, errors='raise');
astype强制转换
astype可以将DataFrame对象的某列的数据类型进行转换
如果试图强制将两列转换为整数类型,可以使用 df.astype(int)
。
df.date = df.date.astype(str)
# df['date','time'].astype(str)
df[['date','time']] = df[['date','time']].astype(str)
数据清洗
数据入库