pandas中的缺失数据表示
缺失数据在pandas中呈现的方式有些不完美,但对于大多数用户可以保证功能正常。对于数值数据,pandas使用浮点值NaN(Not a Number)表示缺失数据。我们称其为哨兵值,可以方便的检测出来
In [3]: string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])In [4]: string_dataOut[4]:0 aardvark1 artichoke2 NaN3 avocadodtype: objectIn [5]: string_data.isnull()Out[5]:0 False1 False2 True3 Falsedtype: bool
在pandas中,我们采用了R语言中的惯用法,即将缺失值表示为NA,它表示不可用not available。在统计应用中,NA数据可能是不存在的数据或者虽然存在,但是没有观察到(例如,数据采集中发生了问题)。当进行数据清洗以进行分析时,最好直接对缺失数据进行分析,以判断数据采集的问题或缺失数据可能导致的偏差
Python内置的 None 值在对象数组中也可以作为NA:
In [6]: string_data[0] = NoneIn [7]: string_data.isnull()Out[7]:0 True1 False2 True3 Falsedtype: bool
pandas项目中还在不断优化内部细节以更好处理缺失数据,像用户API功能,例如pandas.isnull() ,去除了许多恼人的细节。下表列出了一些关于缺失数据处理的函数
滤除缺失数据
过滤掉缺失数据的办法有很多种。你可以通过pandas.isnull() 或布尔索引的手工方法,但dropna() 可能会更实用一些。对于一个Series,dropna 返回一个仅含非空数据和索引值的Series
In [10]: from numpy import nan as NAIn [11]: data = pd.Series([1, NA, 3.5, NA, 7])In [12]: data.dropna()Out[12]:0 1.02 3.54 7.0dtype: float64
这等价于
In [13]: data[data.notnull()]Out[13]:0 1.02 3.54 7.0dtype: float64
而对于DataFrame对象,事情就有点复杂了。你可能希望丢弃全NA或含有NA的行或列。dropna() 默认丢弃任何含有缺失值的行
In [15]: data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA],...: [NA, NA, NA], [NA, 6.5, 3.]])In [16]: dataOut[16]:0 1 20 1.0 6.5 3.01 1.0 NaN NaN2 NaN NaN NaN3 NaN 6.5 3.0In [17]: cleaned = data.dropna()In [18]: dataOut[18]:0 1 20 1.0 6.5 3.01 1.0 NaN NaN2 NaN NaN NaN3 NaN 6.5 3.0In [19]: cleanedOut[19]:0 1 20 1.0 6.5 3.0
传入 how='all' 将只丢弃全为NA的那些行
In [20]: data.dropna(how='all')Out[20]:0 1 20 1.0 6.5 3.01 1.0 NaN NaN3 NaN 6.5 3.0
用这种方式丢弃列,只需传入axis=1 即可
In [21]: data[4] = NAIn [22]: dataOut[22]:0 1 2 40 1.0 6.5 3.0 NaN1 1.0 NaN NaN NaN2 NaN NaN NaN NaN3 NaN 6.5 3.0 NaNIn [24]: data.dropna(axis=1, how='all')Out[24]:0 1 20 1.0 6.5 3.01 1.0 NaN NaN2 NaN NaN NaN3 NaN 6.5 3.0
另一个滤除DataFrame行的问题涉及时间序列数据。假设你只想留下一部分观测数据,可以用 thresh 参数实现此目的
In [25]: df = pd.DataFrame(np.random.randn(7, 3))In [26]: df.iloc[:4, 1] = NAIn [27]: df.iloc[:2, 2] = NAIn [28]: dfOut[28]:0 1 20 1.279066 NaN NaN1 -0.037111 NaN NaN2 -1.102988 NaN 1.2820953 0.678465 NaN -0.2448934 0.936922 -0.433543 0.5014085 1.808474 -0.140179 -0.9239436 -0.095324 -0.555709 -0.346352In [29]: df.dropna()Out[29]:0 1 24 0.936922 -0.433543 0.5014085 1.808474 -0.140179 -0.9239436 -0.095324 -0.555709 -0.346352In [30]: df.dropna(thresh=2)Out[30]:0 1 22 -1.102988 NaN 1.2820953 0.678465 NaN -0.2448934 0.936922 -0.433543 0.5014085 1.808474 -0.140179 -0.9239436 -0.095324 -0.555709 -0.346352
填充缺失数据
你可能不想滤除缺失数据(有可能会丢弃跟它有关的其他数据),而是希望通过其他方式填补那些“空洞”。 对于大多数情况而言,fillna() 方法是最主要的函数。通过一个常数调用fillna() 就会将缺失值替换为那个常数值
In [31]: df.fillna(0)Out[31]:0 1 20 1.279066 0.000000 0.0000001 -0.037111 0.000000 0.0000002 -1.102988 0.000000 1.2820953 0.678465 0.000000 -0.2448934 0.936922 -0.433543 0.5014085 1.808474 -0.140179 -0.9239436 -0.095324 -0.555709 -0.346352
若是通过一个字典调用 fillna() ,就可以实现对不同的列填充不同的值
In [32]: df.fillna({1: 0.5, 2: 0})Out[32]:0 1 20 1.279066 0.500000 0.0000001 -0.037111 0.500000 0.0000002 -1.102988 0.500000 1.2820953 0.678465 0.500000 -0.2448934 0.936922 -0.433543 0.5014085 1.808474 -0.140179 -0.9239436 -0.095324 -0.555709 -0.346352
fillna() 默认会返回新对象,但也可以对现有对象进行就地修改
In [33]: df.fillna(0, inplace=True)In [34]: dfOut[34]:0 1 20 1.279066 0.000000 0.0000001 -0.037111 0.000000 0.0000002 -1.102988 0.000000 1.2820953 0.678465 0.000000 -0.2448934 0.936922 -0.433543 0.5014085 1.808474 -0.140179 -0.9239436 -0.095324 -0.555709 -0.346352
对reindexing有效的那些插值方法也可用于 fillna()
In [39]: df.fillna(method='ffill')Out[39]:0 1 20 -0.892430 1.354326 1.1837731 -0.358144 0.256747 0.3090202 0.107312 0.256747 -0.0172763 -0.643787 0.256747 -0.4761134 0.709494 0.256747 -0.4761135 -1.062814 0.256747 -0.476113In [40]: df.fillna(method='ffill', limit=2)Out[40]:0 1 20 -0.892430 1.354326 1.1837731 -0.358144 0.256747 0.3090202 0.107312 0.256747 -0.0172763 -0.643787 0.256747 -0.4761134 0.709494 NaN -0.4761135 -1.062814 NaN -0.476113
只要有些创新,你就可以利用fillna() 实现许多别的功能。比如说,你可以传入Series的平均值或中位数
In [41]: data = pd.Series([1., NA, 3.5, NA, 7])In [42]: data.fillna(data.mean())Out[42]:0 1.0000001 3.8333332 3.5000003 3.8333334 7.000000dtype: float64
