一、序列模型
    ![IW8OT5{)CI9GAV5VPT0TO6.png

    • 序列模型的估计需要专门的统计工具,两种较流行的选择是自回归模型和隐变量自回归模型。
    • 对于直到时间步tt的观测序列,其在时间步t+k的预测输出是“k步预测”。随着我们对预测时间k值的增加,会造成误差的快速累积和预测质量的极速下降。

    二、文本预处理

    1. 将文本作为字符串加载到内存中。
    2. 将字符串拆分为词元(如单词和字符)。
    3. 建立一个词表,将拆分的词元映射到数字索引。
    4. 将文本转换为数字索引序列,方便模型操作。

    三、语言模型
    6LDQVQBMFSXL$5WH5P7}AY5.png

    使用统计方法时常采用n元语法