应用介绍
实验结果也令人振奋:整合 GCA 的模型不仅在长文本数据集上展现了更优的 perplexity,更展现了 1000 倍以上的长度泛化能力,在 16K 上下文预训练的模型可在 16M 长上下文密钥检索 (passkey retrieval) 实现 100% 准确率,并在更复杂的多跳检索任务持续展现了超强外推能力。此外长度泛化与检索能力效果拔群,基于 GCA 的模型训练开销随序列长度几乎呈线性关系,并且推理的显存开销接近常数,同时基本持平 Transformers 推理速度。
实验结果也令人振奋:整合 GCA 的模型不仅在长文本数据集上展现了更优的 perplexity,更展现了 1000 倍以上的长度泛化能力,在 16K 上下文预训练的模型可在 16M 长上下文密钥检索 (passkey retrieval) 实现 100% 准确率,并在更复杂的多跳检索任务持续展现了超强外推能力。此外长度泛化与检索能力效果拔群,基于 GCA 的模型训练开销随序列长度几乎呈线性关系,并且推理的显存开销接近常数,同时基本持平 Transformers 推理速度。