1. import pandas as pd
    2. import numpy as np
    3. position = pd.read_csv('position.csv')
    4. company = pd.read_csv('company_sql.csv',encoding='gbk')
    5. # np.NAN - - - C语言类型空值
    6. position.loc[position.city == '深圳','city'] = np.NAN
    7. 1fillna():对空值进行填充
    8. - position.fillna('深圳'),fillna方法是数据框级别的会针对所有的空值进行填充
    9. - 填充后赋值
    10. position = position.fillna('深圳')
    11. position.city = position.city.fillna('深圳')
    12. position.city == np.NAN # 直接进行逻辑判断是不行的,所以还是要使用fillna
    13. 2dropna():把所有空值的行砍掉
    14. - position.dropna();参数axis=0针对行,axis=1针对列
    15. position.dropna()
    16. 3、(1) duplicated():删除重复元素
    17. - position.duplicated(),返回的是bool数组,还是要变成索引切片
    18. - keepduplicated里面的参数,keep='first',意为保留第一个遇到的;keep='last',意为保留最后一个遇到的
    19. - 第一个不会被判断成重复值,显示为False,下面有一样的了会变为True,则表示重复
    20. position[position.duplicated()]
    21. # 结果为空则表示是所有值都是唯一的,没有重复值
    22. a = position['city']
    23. a.duplicated()
    24. # keep为duplicated里面的参数,keep='first',意为保留第一个遇到的;keep='last',意为保留最后一个遇到的
    25. # 第一个不会被判断成重复值,显示为False,下面有一样的了会变为True,则表示重复
    26. - 不加~返回的是boolTrue的值,表示为查找重复值,加上~返回的是False,表示查找不重复值;~代表反向
    27. a[~a.duplicated()]
    28. (2) a.drop_duplicates()返回已经处理好的
    29. - drop_duplicates()更加简单,会直接把重复的值,排除掉
    30. - 如果要使用 bool 数组进行一些操作,则选择 duplicated
    31. a.drop_duplicates()