项目地址https://aistudio.baidu.com/aistudio/projectdetail/525311?channelType=0&channel=0

参考内容: 时间序列模型Prophet使用详细讲解 初识Prophet模型(一)— 理论篇

一、Prophet 简介

Prophet是Facebook开源的时间序列预测算法,可以有效处理节假日信息,并按周、月、年对时间序列数据的变化趋势进行拟合。根据官网介绍,Prophet对具有强烈周期性特征的历史数据拟合效果很好,不仅可以处理时间序列存在一些异常值的情况,也可以处理部分缺失值的情形。算法提供了基于Python和R的两种实现方式。

从论文上的描述来看,这个 prophet 算法是基于时间序列分解和机器学习的拟合来做的,其中在拟合模型的时候使用了 pyStan 这个开源工具,因此能够在较快的时间内得到需要预测的结果。

二、Prophet 适用场景

Prophet适用于具有明显的内在规律的商业行为数据,例如:有如下特征的业务问题:

  • 至少几个月(最好是一年)的每小时、每天或每周观察的历史数据;
  • 多种人类规模级别较强的季节性趋势:每周的一些天和每年的一些时间;
  • 事先知道的以不定期的间隔发生的重要节假日(比如国庆节);
  • 缺失的历史数据较大的异常数据的数量合理范围内
  • 历史趋势的变化(比如因为产品发布);
  • 对于数据中蕴含的非线性增长的趋势都有一个自然极限或饱和状态

三、Prophet 算法的输入输出

image.png
上图为一个时间序列场景:

  • 黑色表示原始的时间序列离散点
  • 深蓝色的线表示使用时间序列来拟合所得到的取值
  • 浅蓝色的线表示时间序列的一个置信区间,也就是所谓的合理的上界和下界
  • prophet 所做的事情就是:
    • 输入已知的时间序列的时间戳和相应的值;
    • 输入需要预测的时间序列的长度;
    • 输出未来的时间序列走势。
    • 输出结果可以提供必要的统计指标,包括拟合曲线,上界和下界等。

传入prophet的数据分为两列 dsy ,ds表示时间序列的时间戳y表示时间序列的取值
其中:

  • dspandas的日期格式,样式类似与YYYY-MM-DD for a date or YYYY-MM-DD HH:MM:SS
  • y列必须是数值型,代表着我们希望预测的值。

通过 prophet 的计算,可以计算出:

  • yhat,表示时间序列的预测值
  • yhat_lower,表示预测值的下界
  • yhat_upper,表示预测值的上界

    四、Prophet 算法原理

    算法模型:
    时序预测Prophet - 图2
    模型整体由三部分组成:

  • growth(增长趋势)

  • seasonality(季节趋势)
  • holidays(节假日对预测值的影响)

其中:

  • g(t) 表示趋势项,它表示时间序列在非周期上面的变化趋势;
  • s(t) 表示周期项,或者称为季节项,一般来说是以周或者年为单位;
  • h(t) 表示节假日项,表示时间序列中那些潜在的具有非固定周期的节假日对预测值造成的影响;
  • 时序预测Prophet - 图3即误差项或者称为剩余项,表示模型未预测到的波动, 时序预测Prophet - 图4服从高斯分布;

Prophet 算法就是通过拟合这几项,然后最后把它们累加起来就得到了时间序列的预测值。

五、与机器学习算法的对比

与先进的机器学习算法如LGBM相比,Prophet作为一个时间序列的工具。
优点就是不需要特征工程就可以得到趋势,季节因素和节假日因素。
但是这同时也是它的缺点之一,它无法利用更多的信息,如在预测商品的销量时,无法利用商品的信息,门店的信息,促销的信息等。

因此,寻找一种融合的方法是一个迫切的需求。

六、代码

6.1 依赖安装

  1. # 安装pystan
  2. conda install pystan
  3. # 安装plotly
  4. conda install plotly -y
  5. # 安装prophet
  6. sudo pip install fbprophet

6.2 预测demo

测试数据集
example_wp_log_peyton_manning.csv

  1. import pandas as pd
  2. from fbprophet import Prophet
  3. import matplotlib.pyplot as plt
  4. # 读入数据集
  5. df = pd.read_csv('data/example_wp_log_peyton_manning.csv')
  6. print(df.head())
  7. # 拟合模型
  8. m = Prophet()
  9. m.fit(df)
  10. # 构建待预测日期数据框,periods = 365 代表除历史数据的日期外再往后推 365 天
  11. future = m.make_future_dataframe(periods=365)
  12. future.tail()
  13. # 预测数据集
  14. forecast = m.predict(future)
  15. forecast[['ds', 'yhat', 'yhat_lower', 'yhat_upper']].tail()
  16. # 展示预测结果
  17. m.plot(forecast)
  18. # 预测的成分分析绘图,展示预测中的趋势、周效应和年度效应
  19. m.plot_components(forecast)
  20. plt.show()

image.png
image.png

七、参考资料