全文中pandas简写为pd,data和df都是DataFrame类型。
数据加载缺失值处理异常值处理描述性变量转换为数值型训练集测试集划分数据规范化
数据预处理常用方法汇总

type() 判断对象类型
isinstance() 判断class的类型

数据操作

读取不同格式的数据

  1. #默认情况下第一行数据为表头,设置参数header=None时,encoding可设置为"utf-8"或者"gbk",
  2. data = pd.read_csv("文件.csv", nrows=100, skiprows=10)
  3. data = pd.read.excel("文件.excel",sheet_name='写入页名或者编号(第一页为0)')
  4. data = pd.read_table("文件.txt")
  5. # 这种做法在列的顺序改变但是列的名称不变的时候非常有用
  6. df = pd.read_excel( src_file, header=1, usecols=['item_type', 'order id', 'order date', 'state', 'priority'])
  7. # header=1 列名称在第一行

Pandas 读取异常数据结构 Excel 的方法
pd.read_csv参数详解

设打印数

  1. pd.set_option('display.width',1000) # 设置宽度,就是说不换行,比较好看数据
  2. # 显示所有列
  3. #pd.set_option('display.max_columns', None)
  4. pd.set_option('display.max_columns', 5) #最多显示5列
  5. # 显示所有行
  6. pd.set_option('display.max_rows', None)
  7. # pd.set_option('display.max_rows', 10)#最多显示10行

获取表头的列名

data.columns

以二维列表的形式返回所有数据

data.values

显示数据信息

data.info()

列索引和行索引

  1. frame = pd.DataFrame(np.arange(9).reshape((3,3)),index=['a','c','d'],columns=['Ohio','Texas','California'])
  2. # 修改行索引
  3. frame.reindex(['a','b','c','d']) # 索引为b的行全为NaN
  4. # 修改列索引
  5. frame.reindex(columns=['Texas','Utah','California']) # 索引为Utah的列全为NaN
  6. # 修改列名
  7. frame.columns=['Texas','Utah','California']

head()读取开头几行数据,默认为前5行,传入的参数为读取的行数。
tail()读取结尾几行数据,方法类似head()
describe()统计描述数据集,显示各列的总数,平均值,标准差,最小值,最大值。

获取指定数据

loc是轴标签、iloc是整数标签

获取列,行

  1. data['列名']
  2. data.列名 # 以上两句等价,获取指定列。
  3. #直接用切片取行
  4. data[:2] # 取前两行。
  5. df.ix[0]#取第0
  6. df.ix[0:1]#取第0
  7. df.ix['one':'two']#取onetwo
  8. df.ix[0:2,0]#取第01行,第0
  9. df.ix[0:1,'a']#取第0行,a
  10. df.ix[0:2,'a':'c']#取第01行,abc
  11. df.ix['one':'two','a':'c']#取onetwo行,abc
  12. df.ix[0:2,0:1]#取第01行,第0
  13. df.ix[0:2,0:2]#取第01行,第01
  14. #loc只能通过index和columns来取,不能用数字
  15. df.loc['one','a']#one行,a
  16. df.loc['one':'two','a']#onetwo行,a
  17. df.loc['one':'two','a':'c']#onetwo行,ac
  18. df.loc['one':'two',['a','c']]#onetwo行,ac
  19. #iloc只能用数字索引,不能用索引名
  20. df.iloc[0:2]#前2
  21. df.iloc[0]#第0
  22. df.iloc[0:2,0:2]#01行,01
  23. df.iloc[[0,2],[1,2,3]]#第02行,123
  24. #iat取某个单值,只能数字索引
  25. df.iat[1,1]#第1行,1
  26. #at取某个单值,只能index和columns索引
  27. df.at['one','a']#one行,a

获取行 (有特定数据的行)

  1. # 选取等于某些值的行记录 用 ==
  2. df.loc[df[‘column_name’] == some_value]
  3. # 选取某列是否是某一类型的数值 用 isin
  4. df.loc[df[‘column_name’].isin(some_values)]
  5. # 多种条件的选取 用 &,且每个条件都要使用括号,不能省略()
  6. df.loc[(df[‘column’] == some_value) & (df[‘other_column’].isin(some_values))]
  7. # 选取不等于某些值的行记录 用 !=
  8. df.loc[df[‘column_name’] != some_value]
  9. # isin返回一系列的数值,如果要选择不符合这个条件的数值使用~
  10. df.loc[~df[‘column_name’].isin(some_values)]

获取列中不同的值

  1. data['列名'].unique()
  2. data['列名'].value_counts()# 查看该列有几种数据,以及每种数据出现的频次

添加行,列

  1. # 添加行
  2. df = pd.DataFrame(columns=list("ABC"))
  3. df = pd.DataFrame(columns=["A", "B", "C"]) # 等价于上一句,创建一个拥有三列属性的空DataFrame
  4. df.loc[len(df)] = [1,2,3]
  5. # 添加列
  6. df[column_name] = list(数据)

查看数据集中缺失值的情况

  1. data.isnull() # 每一行每一列有缺失值返回True,无缺失值返回False
  2. data.isnull().sum() #统计每一列缺失值的总数
  3. data.notnull() # 返回值结果与isnull相反。有缺失值返回False,无缺失值返回True

处理缺失值

  1. df1.dropna() # 返回值为删除包含nan行的dataframe对象
  2. # 注意的一点,如果想对df1产生修改的话,要使用inplace=True,才能对df1产生修改。
  3. df1.fillna(value=100) #效果即为将列表中所有值为nan的内容,都填充为100。

科学计算

image.png

求和

  1. #无参数时,默认按列求和
  2. data.sum(axis=0) # 按列求和
  3. data.sum(axis=1) # 按行求和

求平均值

data.mean()# 默认按列求平均
data.mean(axis=1) # 按行求平均,参数为0时按列求平均
用列表或数组给DataFrame中的某一个列赋值时,值的长度必须和DataFrame的长度相匹配。如果将Series赋值给一列时,Series的索引将会按照DataFrame的索引重新排列,并在空缺的地方填充缺失值。

groupby分组

data.groupby(‘列名’) #按照指定列内的值进行分组,每个分组为一个元组类型。返回多个元组

删除数据

DataFrame.drop(index=None, columns=None, inplace=False)
index用于指定要删除的行;columns用于指定要删除的列;inplace默认为False,表示该删除操作不改变原表格,而是返回一个执行删除操作后的新表格,如果设置inplace为True,则会直接在原表格中执行删除操作。
# 删除行
data.drop([16,17]) # 删除行索引为16和17的两行
drop(data.index[[16,17]],inplace=True) # 原有数据块的相应行被删除

# 删除列
data.drop([‘column_name’],axis=1) # 删除新生成的数据块中列名为column_name的列
data.drop([‘column_name’],axis=1,inplace=True) # 执行内部删除,不返回任何值,原数据发生改变

# pop方法可以将所选列从原数据块中弹出,原数据块不再保留该列
one = data.pop(‘column_name’) # 从原数据块中删除列名为column_name的列,并返回该列。

删除重复值

image.png
DataFrame的duplicated方法返回的是一个布尔值Series,这个Series反映的是每一行是否存在重复(与之前出现过的行相同)情况
image.png
drop_duplicates返回的是DataFrame,内容是duplicated返回数组中为False的部分
image.png
这些方法默认都是对列进行操作。你可以指定数据的任何子集来检测是否有重复。假设我们有一个额外的列,并想基于’k1’列去除重复值。
image.png
duplicated和drop_duplicates默认都是保留第一个观测到的值。传入参数keep=’last’将会返回最后一个
image.png
print(data[data.duplicated()]) #打印重复的数据行
data.duplicated().sum() # 统计重复行的数量
data = data.drop_duplicates() # 删除重复行
注意,drop_duplicates()函数并不改变原表格结构,所以需要进行重新赋值,或者在其中设置inplace参数为True。

随机抽样

使用numpy.random.permutation对DataFrame中的Series或行进行置换(随机重排序)。在调用permutation时根据你想要的轴长度可以产生一个表示新顺序的整数数组:
image.png
整数数组可以用在基于iloc的索引或等价的take函数中:
image.png
要选出一个不含有替代值的随机子集,你可以使用Series和DataFrame的sample方法:
image.png
要生成一个带有替代值的样本(允许有重复选择),将replace=True传入sample方法:
image.png

数据排序

values值排序使用sort_values()函数可以对表格按列排序。例如,按c2列进行降序排序的代码如下
a = data.sort_values(by=’c2’,ascending=False)# 按照c2列的数据进行降序,
data.sort_values(by=’c2’,ascending=False,inplace=True) # inplace为true则排序后的新索引代替原来的索引
by参数用于指定按哪一列来排序;ascending参数默认为True,表示升序排序,若设置为False则表示降序排序
index索引排序使用sort_index()函数可以按照索引进行排序。
a = data.sort_index(ascending=True)
data.sort_index(ascending=True, inplace=True) # 当inplace为True时,原来的索引会被新的索引取代。
重新设置索引
data.reset_index(drop=True, inplace=True)# 删除掉原来的索引,并用新的索引替代。

数据转换

get_dummies()实现one——hot编码功能
factorize()实现将Series中的标称型数据映射称为一组数字

字符映射成数字

class_mapping = {‘A’:0, ‘B’:1}
data[class] = data[class].map(class_mapping)

存储DataFrame数据至csv

index的值为False表示不将列索引存储进csv文件中,默认是打印列索引到csv文件中
data.to_csv(“文件名.csv”, index=False,encoding=”UTF-8”)

基于某一列修改某一列的值

  1. df = DataFrame({"a":[1,2,3],"b":[4,5,6],"c":[7,8,9]})
  2. df
  3. Out[12]:
  4. a b c
  5. 0 1 4 7
  6. 1 2 5 8
  7. 2 3 6 9
  8. df.loc[df.a>=2,'b'] = 'new_data'
  9. df
  10. Out[14]:
  11. a b c
  12. 0 1 4 7
  13. 1 2 new_data 8
  14. 2 3 new_data 9

创建DataFrame

创建空的DataFrame

df_empty = pd.DataFrame(columns=[‘A’, ‘B’, ‘C’, ‘D’])
上面创建的DataFrame有4列,每一行没有成员是空的。
创建dataframe参考

创建带时间索引的DataFrame

时间索引生成

根据指定的起止时间,生成时间序列
pd.date_range(start=’2019-1-09’, end=’2019-1-31’)
根据起止时间,并指定时间序列数量
pd.date_range(start=’2019-1-09’, end=’2019-1-10’,periods=10)
根据开始时间指定数量生成
pd.date_range(start=’2019-1-09’,periods=10)
根据指定的频率生成时间点
pd.date_range(start=’2019-1-09’,periods=10,freq=’H’)
pd.date_range(start=’2019-1-09’,periods=10,freq=’12H’)
pandas数据处理 - 图11

  1. DatetimeIndex = pd.date_range(start='2021-9-1', periods=960, freq='15min')
  2. result_df = pd.DataFrame(result, index=DatetimeIndex, columns = ['总有功功率(kw)'])

时序数据缺失值填充

python处理时序数据缺失值插值

  1. # 对缺失值进行线性插值
  2. df['总有功功率(kw)'] = df['总有功功率(kw)'].interpolate(method='linear')

数据合并

pandas数据合并之一文弄懂pd.merge()

plt绘图

  1. plt.figure(figsize = (16,9))
  2. plt.plot(df.index[:100], df.values[:100, 1], c='r', label='最高温度')
  3. plt.plot(df.index[:100], df.values[:100, 2], c='b', label='最低温度')
  4. plt.xticks(rotation=45)
  5. plt.title('每日温度') # plt.title('每日总有功功率', y=0.75, loc='right')
  6. plt.ylabel('温度(摄氏度)')
  7. plt.xlabel('时间(日)')
  8. plt.legend(fontsize=12, loc='upper right)
  9. plt.show()

image.png