简单例子

用于将两个本地csv文件通过某个字段进行关联:
#!/usr/bin/env python3
# -- coding: utf-8 --

“””
Created on Mon Feb 14 10:27:08 2022

@author: mi
“””

import pandas as pd
#%%
data1 = pd.read_csv(“/home/cmy/202201月份数据/abc.csv”, usecols=(“id”,”depart_id”,”department_name”), sep=”,”, header=0)
data1.columns = [‘id’,’department_id’,’department_name’]
data1 = data1.drop_duplicates(subset = [‘department_id’], keep=’first’)

%%
data2 = pd.read_csv(“/home/cmy/202201月份数据/def.csv”, sep=”,”, header=0)
data2 = data2.drop_duplicates(subset = [‘department_id’], keep=’first’)

%%
data3 = pd.merge(data1, data2, how=’inner’, on=[‘id’,’department_id’])
data3.to_csv(‘/home/cmy/202201月份数据/def_new.csv’,index=False)

data1获取abc.csv的数据,abc.csv里面有多列,我们只获取其中三列(”id”,”department_id”,”department_name”)
columns函数是给获取的这三列改名

data2获取def.csv的数据

data3将data1和data2通过’id’和’department_id’进行内连接

%%是分割cell

函数

read_csv:读取指定目录下的文件
read_csv的参数:(百度很多)
usecols是从文件中多列选取其中需要的某几列
sep分割方式,默认逗号分隔
header
drop_duplicates:做去重
drop_duplicates的参数:
subset:需要去重的行
keep:first保留第一次出现的重复行,删除后面所有的重复项
last删除重复项,保留最后一次出现的重复行
false删除所有重复行
columns可以自定义列名
drop:删除
drop参数:
axis取值0和1:0代表删除行
1代表删除列