实现 N-gram语法一元语法:t=0,每个词都是独立的二元语法:t=1,每个词只依赖于前两个词三元语法:…好处:给任意长的序列,需要看的子序列是固定的,可以把每个词都存下来,比如给定一个1000的词典,二元语法则对应着1000*1000的存储空间复杂度,时间复杂度: 实现在seq2seqdata中,序列是一个一个排序下去的,最大的问题在于:每遍历一次,所有的数据可能都会被用过很多次,数据会存在于多个序列中,而不是仅仅属于一个序列 在语言模型中,随机的切成几段不让epoch更长