DeepSeek 重磅推出 NSA 功能!处理长文本、编写长篇故事更强
2025-02-19
1 次阅读
会员专享
就在马斯克发布Grok 3大模型后当天,DeepSeek 就重磅推出 NSA 功能!这是长文本建模的突破性进展,在处理长序列文本起到非常关键的作用,处理长文本、编写长篇故事更强!消息发布后就迎来大量的围观。 近年来,语言模型被要求处理越来越长的上下文。这种需求暴露了标准注意力机制中的一些固有问题。全注意力的二次复杂度在处理长序列时很快成为瓶颈。内存使用量和计算需求迅速增加,使得多轮对话或复杂推理任务等实际应用面临挑战。此外,虽然稀疏注意力方法有望带来理论上的改进,但它们往往难以将这些好处转化为现实世界的加速。许多挑战源于理论效率与实际实施之间的脱节。在不丢失重要信息的情况下减少计算开销并非易事。这促使研究人员重新思考注意力机制,以便更好地平衡性能和效率。解决这些问题是构建可扩展且有效的模型的关键一步。DeepSeek AI 研究人员推出了 NSA,这是一种与硬件一致且可本地训练的稀疏注意力机制,用于超快速长上下文训练和推理。NSA 集成了算法创新和与硬件一致的优化,以降低处理长序列的计算成本。NSA 使用动态分层方法。它首先将标记组压缩为汇总表示。然后,它通过计算重要性分数有选择地仅...
🔒
登录后继续阅读
登录账号即可免费阅读本文
立即登录
还没账户? 注册
show = false, 3000)"
x-show="show" x-cloak x-transition
class="fixed top-20 right-4 z-50">