2月18日,DeepSeek正式发布了一份有关海外社交平台X的纯技术论文报告。该论文的主要内容是关于NSA(本质上稀疏的注意力)。官方介绍是一种超快速的类型和长期的一种用于文本培训和推理的稀疏注意机制,可以与硬件保持一致且本地训练。
具体而言,NSA已针对现代硬件进行了优化,该硬件可以加速推理过程,同时又降低培训成本而不牺牲性能。它在一般基准,长文本任务和基于教学的推理中实现或超过了全部注意模型的性能。稀疏的注意力为提高效率的方向提供了一个有希望的方向,同时保持模型功能。
记者注意到,在题为“本地稀疏关注的论文中:硬件一致且本地可训练的稀疏关注” Liang Wenfeng,DeepSeek的创始人也被列为共同创造。
在本文中,DeepSeek团队表示,该行业越来越了解长篇文化建模对下一代大型语言模型的重要性,而推动此需求的应用程序包括深层推理,仓库级代码生成和多个自主代理系统的一轮。但是,随着序列长度的增加,标准注意机制的高复杂性成为临界延迟瓶颈。
本文提到,理论估计表明,使用SoftMax Architecture(一种用于多分类问题的神经网络体系结构),注意力计算占解码64k长度上下文总延迟的70%-80%有效的注意机制。
记者向DeepSeek提供了本文,并要求其评估其对行业的影响和意义。 DeepSeek说,这项技术的核心价值在于平衡效率和性能,这不仅降低了计算成本,而且还保持了模型能力。对于该行业,NSA提供了一种有效的解决方案来处理长篇小说任务,有助于推动更强大,更经济的语言模型的发展,尤其是在需要长文本的应用程序场景中。
通过有效的长期处理功能,NSA使该模型能够直接处理整个书籍,代码仓库或多个回合的对话(例如千轮客户服务方案),从而扩展了大型语言模型在文档分析领域的应用,代码生成,复杂的推理等。边界。例如,Gemini 1.5 Pro证明了较长的上下文潜力,NSA可以进一步降低此类模型的培训和推理成本。
此外,DeepSeek提到NSA可以降低计算功率阈值和部署成本。端到端稀疏训练可以减少预训练所需的计算资源(例如减少A100 GPU小时数),并减少企业开发大型模型的资金和技术障碍。同时,可以加速推理,使长文本生成(例如代码完成和故事续集)更加实时,适用于边缘设备或低延迟场景。
一位X用户在DeepSeek帖子中说:“ NSA机制改变了游戏规则。超快速的长篇小说培训对于扩大教育领域的AI至关重要,这完全符合个性化学习的愿景。”一些网民开玩笑说:“ RIP”。 Nvidia”。
自从1月20日发行DeepSeek-R1并激发了AI圈以来,DeepSeek一直相对低。这是DeepSeek在这么多天内发布的唯一技术更新。
“ DeepSeek团队正在做饭!” (DeepSeek团队正在积极工作!)一些X网民说。