instruct 模型针对多语言对话进行了优化,明确宣传了「以多语言文本和代码作为输出模式」,增加了对 8 种语言(英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语)的支持。3 个版本的上下文窗口都从 8k 增加到 128K,足足扩大 16 倍。在来自公开数据的约15 万亿 tokens上训练。微调数据包括公开可用的指令数据集,以及超过 2500 万个合成数据示例。 原文链接