拼接多个csv文件
import numpy as np
import pandas as pd
df1 = pd.read_csv('guazi_bj.csv')
df2 = pd.read_csv('guazi_gz.csv')
df3 = pd.read_csv('guazi_sh.csv')
df4 = pd.read_csv("guazi_sz.csv")
df_quanguo = df1.append([df2,df3,df4])
去除重复数据,重新索引
df5 = df5.drop_duplicates()
li = []
for i in range(len(df5.index)):
li.append(i)
print(li) #获取新的索引列表
df6 = df5.loc.index=li #获取新的DF索引对象
df5.index=df6 #必须用DF对象才能使用index命令重新命名df5的索引
自动挡和手动挡数目
len(df5[df5["speedbox"]=="自动"]) #自动挡的数目
len(df5[df5["speedbox"]=="手动"]) #手动挡的数目
计算每个城市二手车数量
len(df5[df5["city"]=="北京"])
len(df5[df5["city"]=="广州"])
len(df5[df5["city"]=="上海"])
len(df5[df5["city"]=="深圳"])
统计每个汽车品牌平均售价价格(不是原价) (提示:groupby,可以先不做)
df6 = df5.groupby(by="brand")[['es_price']].mean()