pham 【2013】等 和Zaremba【2014】等提出仅仅在非循环连接部分使用dropout,比如深度RNN的层间而不是序列的位置之间。 Gal【2015】在分析了RNN结构进行变分分析后,认为应该向RNN这种所有组成部分用dropout机制,但是重要的是要在时间步长上使用 相同 的掩码(每次序列采样一次掩码,而不是每个时间步长一次)。