Pandas的应用-5

DataFrame的应用

窗口计算

DataFrame对象的rolling方法允许我们将数据置于窗口中,然后就可以使用函数对窗口中的数据进行运算和处理。例如,我们获取了某只股票近期的数据,想制作5日均线和10日均线,那么就需要先设置窗口再进行运算。我们可以使用三方库pandas-datareader来获取指定的股票在某个时间段内的数据,具体的操作如下所示。

安装pandas-datareader三方库。

  1. pip install pandas-datareader

通过pandas-datareader 提供的get_data_stooq从 Stooq 网站获取百度(股票代码:BIDU)近期股票数据。

  1. import pandas_datareader as pdr
  2. baidu_df = pdr.get_data_stooq('BIDU', start='2021-11-22', end='2021-12-7')
  3. baidu_df.sort_index(inplace=True)
  4. baidu_df

输出:

74.Pandas的应用-5 - 图1

上面的DataFrameOpenHighLowCloseVolume五个列,分别代码股票的开盘价、最高价、最低价、收盘价和成交量,接下来我们对百度的股票数据进行窗口计算。

  1. baidu_df.rolling(5).mean()

输出:

74.Pandas的应用-5 - 图2

上面的Close 列的数据就是我们需要的5日均线,当然,我们也可以用下面的方法,直接在Close列对应的Series对象上计算5日均线。

  1. baidu_df.Close.rolling(5).mean()

输出:

  1. Date
  2. 2021-11-22 NaN
  3. 2021-11-23 NaN
  4. 2021-11-24 NaN
  5. 2021-11-26 NaN
  6. 2021-11-29 150.608
  7. 2021-11-30 151.014
  8. 2021-12-01 150.682
  9. 2021-12-02 150.196
  10. 2021-12-03 147.062
  11. 2021-12-06 146.534
  12. 2021-12-07 146.544
  13. Name: Close, dtype: float64

相关性判定

在统计学中,我们通常使用协方差(covariance)来衡量两个随机变量的联合变化程度。如果变量 74.Pandas的应用-5 - 图3 的较大值主要与另一个变量 74.Pandas的应用-5 - 图4 的较大值相对应,而两者较小值也相对应,那么两个变量倾向于表现出相似的行为,协方差为正。如果一个变量的较大值主要对应于另一个变量的较小值,则两个变量倾向于表现出相反的行为,协方差为负。简单的说,协方差的正负号显示着两个变量的相关性。方差是协方差的一种特殊情况,即变量与自身的协方差。

74.Pandas的应用-5 - 图5%20%3D%20E((X%20-%20%5Cmu)(Y%20-%20%5Cupsilon))%20%3D%20E(X%20%5Ccdot%20Y)%20-%20%5Cmu%5Cupsilon%0A#card=math&code=cov%28X%2CY%29%20%3D%20E%28%28X%20-%20%5Cmu%29%28Y%20-%20%5Cupsilon%29%29%20%3D%20E%28X%20%5Ccdot%20Y%29%20-%20%5Cmu%5Cupsilon%0A)

如果 74.Pandas的应用-5 - 图674.Pandas的应用-5 - 图7 是统计独立的,那么二者的协方差为0,这是因为在 74.Pandas的应用-5 - 图874.Pandas的应用-5 - 图9 独立的情况下:

74.Pandas的应用-5 - 图10%20%3D%20E(X)%20%5Ccdot%20E(Y)%20%3D%20%5Cmu%5Cupsilon%0A#card=math&code=E%28X%20%5Ccdot%20Y%29%20%3D%20E%28X%29%20%5Ccdot%20E%28Y%29%20%3D%20%5Cmu%5Cupsilon%0A)

协方差的数值大小取决于变量的大小,通常是不容易解释的,但是正态形式的协方差大小可以显示两变量线性关系的强弱。在统计学中,皮尔逊积矩相关系数就是正态形式的协方差,它用于度量两个变量 74.Pandas的应用-5 - 图1174.Pandas的应用-5 - 图12 之间的相关程度(线性相关),其值介于-11之间。

74.Pandas的应用-5 - 图13%7D%20%7B%5Csigma%7BX%7D%5Csigma%7BY%7D%7D%0A#card=math&code=%5Crho%7BX%2CY%7D%20%3D%20%5Cfrac%20%7Bcov%28X%2C%20Y%29%7D%20%7B%5Csigma%7BX%7D%5Csigma%7BY%7D%7D%0A)

估算样本的协方差和标准差,可以得到样本皮尔逊系数,通常用希腊字母 74.Pandas的应用-5 - 图14 表示。

74.Pandas的应用-5 - 图15(Yi%20-%20%5Cbar%7BY%7D)%7D%20%7B%5Csqrt%7B%5Csum%7Bi%3D1%7D%5E%7Bn%7D(Xi%20-%20%5Cbar%7BX%7D)%5E2%7D%20%5Csqrt%7B%5Csum%7Bi%3D1%7D%5E%7Bn%7D(Yi%20-%20%5Cbar%7BY%7D)%5E2%7D%7D%0A#card=math&code=%5Crho%20%3D%20%5Cfrac%20%7B%5Csum%7Bi%3D1%7D%5E%7Bn%7D%28Xi%20-%20%5Cbar%7BX%7D%29%28Y_i%20-%20%5Cbar%7BY%7D%29%7D%20%7B%5Csqrt%7B%5Csum%7Bi%3D1%7D%5E%7Bn%7D%28Xi%20-%20%5Cbar%7BX%7D%29%5E2%7D%20%5Csqrt%7B%5Csum%7Bi%3D1%7D%5E%7Bn%7D%28Y_i%20-%20%5Cbar%7BY%7D%29%5E2%7D%7D%0A)

我们用 74.Pandas的应用-5 - 图16 值判断指标的相关性时遵循以下两个步骤。

  1. 判断指标间是正相关、负相关,还是不相关。

    • 当 $ \rho \gt 0 $,认为变量之间是正相关,也就是两者的趋势一致。
    • 当 $ \rho \lt 0 $,认为变量之间是负相关,也就是两者的趋势相反。
    • 当 $ \rho = 0 $,认为变量之间是不相关的,但并不代表两个指标是统计独立的。
  2. 判断指标间的相关程度。

    • 当 $ \rho $ 的绝对值在 $ [0.6,1] $ 之间,认为变量之间是强相关的。
    • 当 $ \rho $ 的绝对值在 $ [0.1,0.6) $ 之间,认为变量之间是弱相关的。
    • 当 $ \rho $ 的绝对值在 $ [0,0.1) $ 之间,认为变量之间没有相关性。

皮尔逊相关系数适用于:

  1. 两个变量之间是线性关系,都是连续数据。
  2. 两个变量的总体是正态分布,或接近正态的单峰分布。
  3. 两个变量的观测值是成对的,每对观测值之间相互独立。

DataFrame对象的cov方法和corr方法分别用于计算协方差和相关系数,corr方法的第一个参数method的默认值是pearson,表示计算皮尔逊相关系数;除此之外,还可以指定kendallspearman来获得肯德尔系数或斯皮尔曼等级相关系数。

接下来,我们从名为boston_house_price.csv的文件中获取著名的波士顿房价数据集来创建一个DataFrame,我们通过corr方法计算可能影响房价的13个因素中,哪些跟房价是正相关或负相关的,代码如下所示。

  1. boston_df = pd.read_csv('data/csv/boston_house_price.csv')
  2. boston_df.corr()

说明:如果需要上面例子中的 CSV 文件,可以通过下面的百度云盘地址进行获取,数据在《从零开始学数据分析》目录中。链接:https://pan.baidu.com/s/1rQujl5RQn9R7PadB2Z5g_g,提取码:e7b4。

输出:

74.Pandas的应用-5 - 图17

斯皮尔曼相关系数对数据条件的要求没有皮尔逊相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关系数来进行研究。我们通过下面的方式来计算斯皮尔曼相关系数。

  1. boston_df.corr('spearman')

输出:

74.Pandas的应用-5 - 图18

在 Notebook 或 JupyterLab 中,我们可以为PRICE列添加渐变色,用颜色直观的展示出跟房价负相关、正相关、不相关的列,DataFrame对象style属性的background_gradient方法可以完成这个操作,代码如下所示。

  1. boston_df.corr('spearman').style.background_gradient('RdYlBu', subset=['PRICE'])

74.Pandas的应用-5 - 图19

上面代码中的RdYlBu代表的颜色如下所示,相关系数的数据值越接近1,颜色越接近红色;数据值越接近1,颜色越接近蓝色;数据值在0附件则是黄色。

  1. plt.get_cmap('RdYlBu')

74.Pandas的应用-5 - 图20

Index的应用

我们再来看看Index类型,它为SeriesDataFrame对象提供了索引服务,常用的Index有以下几种。

范围索引(RangeIndex)

代码:

  1. sales_data = np.random.randint(400, 1000, 12)
  2. month_index = pd.RangeIndex(1, 13, name='月份')
  3. ser = pd.Series(data=sales_data, index=month_index)
  4. ser

输出:

  1. 月份
  2. 1 703
  3. 2 705
  4. 3 557
  5. 4 943
  6. 5 961
  7. 6 615
  8. 7 788
  9. 8 985
  10. 9 921
  11. 10 951
  12. 11 874
  13. 12 609
  14. dtype: int64

分类索引(CategoricalIndex)

代码:

  1. cate_index = pd.CategoricalIndex(
  2. ['苹果', '香蕉', '苹果', '苹果', '桃子', '香蕉'],
  3. ordered=True,
  4. categories=['苹果', '香蕉', '桃子']
  5. )
  6. ser = pd.Series(data=amount, index=cate_index)
  7. ser

输出:

  1. 苹果 6
  2. 香蕉 6
  3. 苹果 7
  4. 苹果 6
  5. 桃子 8
  6. 香蕉 6
  7. dtype: int64

代码:

  1. ser.groupby(level=0).sum()

输出:

  1. 苹果 19
  2. 香蕉 12
  3. 桃子 8
  4. dtype: int64

多级索引(MultiIndex)

代码:

  1. ids = np.arange(1001, 1006)
  2. sms = ['期中', '期末']
  3. index = pd.MultiIndex.from_product((ids, sms), names=['学号', '学期'])
  4. courses = ['语文', '数学', '英语']
  5. scores = np.random.randint(60, 101, (10, 3))
  6. df = pd.DataFrame(data=scores, columns=courses, index=index)
  7. df

说明:上面的代码使用了MultiIndex的类方法from_product,该方法通过idssms两组数据的笛卡尔积构造了多级索引。

输出:

  1. 语文 数学 英语
  2. 学号 学期
  3. 1001 期中 93 77 60
  4. 期末 93 98 84
  5. 1002 期中 64 78 71
  6. 期末 70 71 97
  7. 1003 期中 72 88 97
  8. 期末 99 100 63
  9. 1004 期中 80 71 61
  10. 期末 91 62 72
  11. 1005 期中 82 95 67
  12. 期末 84 78 86

代码:

  1. # 计算每个学生的成绩,期中占25%,期末占75%
  2. df.groupby(level=0).agg(lambda x: x.values[0] * 0.25 + x.values[1] * 0.75)

输出:

  1. 语文 数学 英语
  2. 学号
  3. 1001 93.00 92.75 78.00
  4. 1002 68.50 72.75 90.50
  5. 1003 92.25 97.00 71.50
  6. 1004 88.25 64.25 69.25
  7. 1005 83.50 82.25 81.25

日期时间索引(DatetimeIndex)

  1. 通过date_range()函数,我们可以创建日期时间索引,代码如下所示。
    代码:
    1. pd.date_range('2021-1-1', '2021-6-1', periods=10)


输出:

  1. DatetimeIndex(['2021-01-01 00:00:00', '2021-01-17 18:40:00',
  2. '2021-02-03 13:20:00', '2021-02-20 08:00:00',
  3. '2021-03-09 02:40:00', '2021-03-25 21:20:00',
  4. '2021-04-11 16:00:00', '2021-04-28 10:40:00',
  5. '2021-05-15 05:20:00', '2021-06-01 00:00:00'],
  6. dtype='datetime64[ns]', freq=None)


代码:

  1. pd.date_range('2021-1-1', '2021-6-1', freq='W')


输出:

  1. DatetimeIndex(['2021-01-03', '2021-01-10', '2021-01-17', '2021-01-24',
  2. '2021-01-31', '2021-02-07', '2021-02-14', '2021-02-21',
  3. '2021-02-28', '2021-03-07', '2021-03-14', '2021-03-21',
  4. '2021-03-28', '2021-04-04', '2021-04-11', '2021-04-18',
  5. '2021-04-25', '2021-05-02', '2021-05-09', '2021-05-16',
  6. '2021-05-23', '2021-05-30'],
  7. dtype='datetime64[ns]', freq='W-SUN')
  1. 通过DateOffset类型,我们可以设置时间差并和DatetimeIndex进行运算,具体的操作如下所示。
    代码:
    1. index = pd.date_range('2021-1-1', '2021-6-1', freq='W')
    2. index - pd.DateOffset(days=2)


输出:

  1. DatetimeIndex(['2021-01-01', '2021-01-08', '2021-01-15', '2021-01-22',
  2. '2021-01-29', '2021-02-05', '2021-02-12', '2021-02-19',
  3. '2021-02-26', '2021-03-05', '2021-03-12', '2021-03-19',
  4. '2021-03-26', '2021-04-02', '2021-04-09', '2021-04-16',
  5. '2021-04-23', '2021-04-30', '2021-05-07', '2021-05-14',
  6. '2021-05-21', '2021-05-28'],
  7. dtype='datetime64[ns]', freq=None)


代码:

  1. index + pd.DateOffset(days=2)


输出:

  1. DatetimeIndex(['2021-01-05', '2021-01-12', '2021-01-19', '2021-01-26',
  2. '2021-02-02', '2021-02-09', '2021-02-16', '2021-02-23',
  3. '2021-03-02', '2021-03-09', '2021-03-16', '2021-03-23',
  4. '2021-03-30', '2021-04-06', '2021-04-13', '2021-04-20',
  5. '2021-04-27', '2021-05-04', '2021-05-11', '2021-05-18',
  6. '2021-05-25', '2021-06-01'],
  7. dtype='datetime64[ns]', freq=None)
  1. 可以使用DatatimeIndex类型的相关方法来处理数据,具体包括:

    • shift()方法:通过时间前移或后移数据,我们仍然以上面百度股票数据为例,代码如下所示。
      代码:
      1. baidu_df.shift(3, fill_value=0)


输出: 74.Pandas的应用-5 - 图21
代码:

  1. baidu_df.shift(-1, fill_value=0)


输出: 74.Pandas的应用-5 - 图22

  • asfreq()方法:指定一个时间频率抽取对应的数据,代码如下所示。
    代码:
    1. baidu_df.asfreq('5D')


输出: 74.Pandas的应用-5 - 图23
代码:

  1. baidu_df.asfreq('5D', method='ffill')


输出: 74.Pandas的应用-5 - 图24

  • resample()方法:基于时间对数据进行重采样,相当于根据时间周期对数据进行了分组操作,代码如下所示。
    代码:
    1. baidu_df.resample('1M').mean()


输出: 74.Pandas的应用-5 - 图25

说明:上面的代码中,W表示一周,5D表示5天,1M表示1个月。

  1. 时区转换

    • 获取时区信息。 ```python import pytz

pytz.common_timezones

  1. -
  2. `tz_localize()`方法:将日期时间本地化。
  3. <br />代码:
  4. ```python
  5. baidu_df = baidu_df.tz_localize('Asia/Chongqing')
  6. baidu_df


输出: 74.Pandas的应用-5 - 图26

  • tz_convert()方法:转换时区。
    代码:
    1. baidu_df.tz_convert('America/New_York')


输出: 74.Pandas的应用-5 - 图27