去掉某列重复的数据

  1. df['Seqno'].drop_duplicates()
  2. df.drop_duplicates(['Seqno'])

pandas 索引与列相互转化

列转为索引

  1. df.set_index('date', inplace=True) # column 改为 index

索引转为列

  1. df['index'] = df.index
  2. df.reset_index() # (all)index 改为 column
  3. df.reset_index(level=0, inplace=True) # (the first)index 改为 column
  4. df.reset_index(level=['tick', 'obs'])
  5. df['si_name'] = df.index.get_level_values('si_name') # where si_name is the name of the subindex.

修改数据类型

使用 to_numeric 转为数值

默认情况下,它不能处理字母型的字符串’pandas’

  1. pd.to_numeric(s) # or pd.to_numeric(s, errors='raise');

astype强制转换

astype可以将DataFrame对象的某列的数据类型进行转换
如果试图强制将两列转换为整数类型,可以使用 df.astype(int)

  1. df.date = df.date.astype(str)
  2. # df['date','time'].astype(str)
  3. df[['date','time']] = df[['date','time']].astype(str)

image.png
image.png
image.png
image.png
image.png
image.png
数据清洗

数据入库

image.png
image.png