2月25日,DeepSeek在“开源周”的第二天开设了Deepep Communict Library。 DeepSeek说,这是MOE(专家)模型培训和推理的第一个开源EP通信库。
“有效且优化的全员器交流; NVLink和RDMA(远程直接内存访问,通信技术)在节点内部和之间支持;用于训练和推理的高通量内核预先填充;低级推理代码用于推理代码;延迟内核;以这种方式深入。
EP,即专家并行性,是一种用于大规模分布的AI模型培训中的技术,可用于提高模型并行处理能力和训练效率。 DeepSeek在托管网站github上解释说,对于延迟敏感的推理代码任务,DEEPEP包含一组纯RDMA的低延迟核,可用于最大程度地减少延迟。 DeePep还引入了一种重叠的通信和计算方法,该方法无法占据SM(流处理器)资源。简而言之,DEEPEP也是用于提高GPU利用效率的关键技术之一。
DeepSeek-R1的性能与OpenAI O1相当,是基于DeepSeek-V3训练的模型。 DeepSeek-V3先前以不使用最先进的NVIDIA GPU大规模而闻名,并且培训预算较低。为了在现有GPU上训练大型模型,DeepSeek做出了许多创新,以有效利用GPU计算能力。一些学者此前已经解释了DeepSeek-V3在实施计算和通信重叠中的重要作用。 Tsinghua University计算机科学系教授Zhai Jidong说,在对DeepSeek相关技术的解释中,为了提高培训效率,DeepSeek-V3在优化的四个方面,包括负载平衡,沟通优化,优化,优化,,,优化,,优化,,优化,,优化,沟通,,优化,沟通,,优化,沟通,,优化,沟通效果内存优化和计算优化。为此,DeepSeek团队充分利用了算法,软件和硬件中协作创新的潜力。例如,DeepSeek考虑了许多减少沟通开销的方法,包括精致的编排,计算和沟通。
“ DeepSeek提出了一种管道并行算法双管。通过细节控制分配给计算和通信的GPU SMS的数量,它实现了计算和通信的完全重叠,从而改善了GPU资源的利用。在此期间,DeepSeek团队使用了Nvidia的下属, PTX语言控制SM的使用。” Zhai Jidong说。
中央scope半导体董事长Chen Wei还指出,DeepSeek设计了DualPipe算法以实现更有效的管道并行性,并通过计算和通信之间的重叠来掩盖大型模型训练过程。大多数沟通开销。此外,DeepSeek开发了一个跨节点的全能通信核心,以充分利用Infiniband和NVLink带宽和优化的内存使用情况,因此DeepSeek Trainek Trainek deepseek-v3而不使用昂贵的张量并行性。
记者向DeepSeek询问了开源Deepep Communication库的影响。它的答案是,DEEPEP可以显着提高MOE模型的培训和推理效率,并大大减少计算资源的消耗。开源DEEPEP有助于降低AI技术的开发成本,并有助于减少重新释放的开发。
在DeepSeek邮政下宣布开源的一些网民评论。 “ Deepep看起来像是MOE模型培训和推理的破坏者。”一些网民说。一些网民还说,NVLink和RDMA是支持大型MOE模型的重要因素。似乎DeepSeek再次通过AI基础架构的限制打破了。
DeepSeek此前宣布将在本周开放五个代码库。 2月24日,DeepSeek在2月24日添加到开源代码库FlashMLA,已打开了2个代码库,并且有三个代码库要开放。 DeepSeek以前在宣布DeepSeek是一家探索AGI的小公司(通用人工智能)。作为开源社区的一部分,共享的每一条代码将成为加速AI行业发展的集体驱动力。