DeepSeek 重磅推出 NSA 功能！处理长文本、编写长篇故事更强

就在马斯克发布Grok 3大模型后当天，DeepSeek 就重磅推出 NSA 功能！这是长文本建模的突破性进展，在处理长序列文本起到非常关键的作用，处理长文本、编写长篇故事更强！消息发布后就迎来大量的围观。近年来，语言模型被要求处理越来越长的上下文。这种需求暴露了标准注意力机制中的一些固有问题。全注意力的二次复杂度在处理长序列时很快成为瓶颈。内存使用量和计算需求迅速增加，使得多轮对话或复杂推理任务等实际应用面临挑战。此外，虽然稀疏注意力方法有望带来理论上的改进，但它们往往难以将这些好处转化为现实世界的加速。许多挑战源于理论效率与实际实施之间的脱节。在不丢失重要信息的情况下减少计算开销并非易事。这促使研究人员重新思考注意力机制，以便更好地平衡性能和效率。解决这些问题是构建可扩展且有效的模型的关键一步。DeepSeek AI 研究人员推出了 NSA，这是一种与硬件一致且可本地训练的稀疏注意力机制，用于超快速长上下文训练和推理。NSA 集成了算法创新和与硬件一致的优化，以降低处理长序列的计算成本。NSA 使用动态分层方法。它首先将标记组压缩为汇总表示。然后，它通过计算重要性分数有选择地仅...

DeepSeek 重磅推出 NSA 功能！处理长文本、编写长篇故事更强

登录后继续阅读

相关推荐

DeepSeek V4 曝光：下月发布，支持 100M 超长上下文，由国产芯片训练

DeepSeek V3.1 和 Claude Opus4.1 、GPT-5 编程挑战题目！及生成的提示词

最新爆料：DeepSeek R2 即将发布！成本比GPT-4o暴跌 97%

DeepSeek R1 和 ChatGPT 各出狠招，这场PK太炸裂！