语言模型

浏览 177 扫码分享 2023-11-24 00:19:11

把一个文本数据做batch，一个T=num_step(或者叫时间长度)为feature(x), 他后面一个为label(y)
如果像文本序列一样，一个一个依次遍历再从中随机抽取的话太贵了
我们可以把文本序列切割成T长度的块，随机抽取这些块，但是这样切割每次的方法固定了，有的样本切割不到(红)

这样可以从前T个token随机取数，为起点，后面的按T长度切割，再随机取出一个放进batch里