简单例子
%%
data2 = pd.read_csv(“/home/cmy/202201月份数据/def.csv”, sep=”,”, header=0)
data2 = data2.drop_duplicates(subset = [‘department_id’], keep=’first’)
%%
data3 = pd.merge(data1, data2, how=’inner’, on=[‘id’,’department_id’])
data3.to_csv(‘/home/cmy/202201月份数据/def_new.csv’,index=False)
%%是分割cell
- 函数

简单例子

用于将两个本地csv文件通过某个字段进行关联：
#!/usr/bin/env python3
# -- coding: utf-8 --

“””
Created on Mon Feb 14 10:27:08 2022

@author: mi
“””

import pandas as pd
#%%
data1 = pd.read_csv(“/home/cmy/202201月份数据/abc.csv”, usecols=(“id”,”depart_id”,”department_name”), sep=”,”, header=0)
data1.columns = [‘id’,’department_id’,’department_name’]
data1 = data1.drop_duplicates(subset = [‘department_id’], keep=’first’)

%%
data2 = pd.read_csv(“/home/cmy/202201月份数据/def.csv”, sep=”,”, header=0)
data2 = data2.drop_duplicates(subset = [‘department_id’], keep=’first’)

%%
data3 = pd.merge(data1, data2, how=’inner’, on=[‘id’,’department_id’])
data3.to_csv(‘/home/cmy/202201月份数据/def_new.csv’,index=False)

data1获取abc.csv的数据，abc.csv里面有多列，我们只获取其中三列（”id”,”department_id”,”department_name”）
columns函数是给获取的这三列改名

data2获取def.csv的数据

data3将data1和data2通过’id’和’department_id’进行内连接

%%是分割cell

函数

read_csv：读取指定目录下的文件
read_csv的参数：（百度很多）
usecols是从文件中多列选取其中需要的某几列
sep分割方式，默认逗号分隔
header
drop_duplicates：做去重
drop_duplicates的参数：
subset：需要去重的行
keep：first保留第一次出现的重复行，删除后面所有的重复项
last删除重复项，保留最后一次出现的重复行
false删除所有重复行
columns可以自定义列名
drop：删除
drop参数：
axis取值0和1：0代表删除行
1代表删除列

大数据

python学习记录

简单例子

%%
data2 = pd.read_csv(“/home/cmy/202201月份数据/def.csv”, sep=”,”, header=0)
data2 = data2.drop_duplicates(subset = [‘department_id’], keep=’first’)

%%
data3 = pd.merge(data1, data2, how=’inner’, on=[‘id’,’department_id’])
data3.to_csv(‘/home/cmy/202201月份数据/def_new.csv’,index=False)

%%是分割cell

函数

python学习记录

简单例子

%%data2 = pd.read_csv(“/home/cmy/202201月份数据/def.csv”, sep=”,”, header=0)data2 = data2.drop_duplicates(subset = [‘department_id’], keep=’first’)

%%data3 = pd.merge(data1, data2, how=’inner’, on=[‘id’,’department_id’])data3.to_csv(‘/home/cmy/202201月份数据/def_new.csv’,index=False)

%%是分割cell

函数

%%
data2 = pd.read_csv(“/home/cmy/202201月份数据/def.csv”, sep=”,”, header=0)
data2 = data2.drop_duplicates(subset = [‘department_id’], keep=’first’)

%%
data3 = pd.merge(data1, data2, how=’inner’, on=[‘id’,’department_id’])
data3.to_csv(‘/home/cmy/202201月份数据/def_new.csv’,index=False)