有时候我们要根据已有的特征新建一些特征

    1. data['应付金额'] = data.apply(lambda x: x['全区基准点数']*67.1893-x['个人现金支付(元)'] if x['参保类型']=='职工基本医保' else x['全区基准点数']*64.0111-x['个人现金支付(元)'],axis=1)
    • 通过对data也就是整个dataframe用apply,达到对多列进行条件筛选,并给新特征列赋值
    • 这里就是参保类型为职工的,基准点数67-个人现金支付就是应付金额,其他参保类型的就是基准点数64-给个人现金支付

    提取字段的部分新建列,类似SQL的substring

    1. df['MDC'] = df['分组编码'].str[0]
    • 根据字符串的位置进行切片