有时候我们要根据已有的特征新建一些特征
data['应付金额'] = data.apply(lambda x: x['全区基准点数']*67.1893-x['个人现金支付(元)'] if x['参保类型']=='职工基本医保' else x['全区基准点数']*64.0111-x['个人现金支付(元)'],axis=1)
- 通过对data也就是整个dataframe用apply,达到对多列进行条件筛选,并给新特征列赋值
- 这里就是参保类型为职工的,基准点数67-个人现金支付就是应付金额,其他参保类型的就是基准点数64-给个人现金支付
提取字段的部分新建列,类似SQL
的substring
df['MDC'] = df['分组编码'].str[0]
- 根据字符串的位置进行切片