零分Trader

DeepSeek开源周第四弹:揭秘DualPipe等三项优化并行策略,最大化GPU利用效率

作者头像
分析师熊大 本文作者

2025-2-27 阅读 131 约 6分钟读完

评论0

2月27日,DeepSeek OpenSource周(OpenSourceWeek)的第四枚炸弹到了。 DeepSeek在X上宣布,该开源是三种优化并行策略,并详细介绍了GitHub上DeepSeek-V3和R1模型背后的并行计算优化技术。通过这些解释,我们可以清楚地了解团队如何详细优化计算和通信,并最大程度地利用GPU功能。

这三种优化的并行策略包括DualPipe,这是一种双向管道并行算法,用于计算V3/R1模型训练中的重叠通信。与传统方法相比,该算法能够完全重叠前向和向后计算通信阶段,从而减少“管道气泡”(设备在某些时刻的闲置等待)。 DualPipe的开发团队的签名中有创始人Liang Wenfeng。

优化并行策略的第二个项目是EPLB(专家并行负载平衡器),它针对V3/R1模型,并在分布式培训和推理中解决MOE(混合专家)模型的负载不平衡问题。

使用专家并行(EP)时,将不同的专家分配给不同的GPU。由于不同专家的负载可能会根据当前的工作量而有所不同,因此保持不同GPU的负载平衡很重要。 DeepSeek曾经在他的V3论文中提到,该团队采用了一项多余的专家策略来重复重新加载专家,他们将重复的专家创新到GPU上,以确保不同GPU之间的负载平衡。

在第三部分中,DeepSeek直接分享了来自培训和推理框架的绩效分析数据,以帮助社区更好地了解沟通计算重叠策略和低级实施细节。这些数据是使用Pytorch Profiler收集的。下载后,可以直接在Chrome或Edge浏览器中打开它以进行视觉分析。 DeepSeek还模拟了一种绝对平衡的MOE路由策略,以进行性能分析。

在过去的四天中,DeepSeek的发行版与Infra层算法有关,分享了团队最大程度地使用GPU功能的技术细节。陈(Chen Ran)是大型模型生态社区Opencsg(开放和超越)的创始人,此前以第一个金融新闻为例,“这相当于,DeepSeek用来直接给您提供汽车来告诉您汽车将持续900公里的事实,但是DeepSeek现在是DeepSeek,DeepSeek是如何挖掘到900公里?”为什么DeepSeek模型可以取得更好的结果?它对应于一些算法和相应的框架,这些“支架”的开源有利于随后的生态结构。

陈(Chen)判断,DeepSeek的开源代码可能会影响AI Infra层中的一群从业者。 “ AI Infra层中的人们需要找到新的方向。”但是他还说,这种开源是一把双刃剑。如果DeepSeek开源的内容可以很好地使用,那么它也可能会受益:“如果您不使用它,您将受到影响。”

三天前,DeepSeek开设了MLA解码的Core FlashMLA,该核心flashmla允许大型模型在GPU上更快地运行,Deepep通信库用于MOE模型培训和推理以及FP8 Gemm Code库DeepGemm,可以支持MOE。

从Github上获得的星星来看,这些项目非常受欢迎。截至发稿时,FlashMLA在Github上获得了10,000多颗恒星,Deepep拥有6,000颗星,DeepGemm目前拥有3,700颗恒星,而最新的DualPipe Star拥有700多颗恒星。

就在昨天,DeepSeek还宣布了国内外API交错的折扣。从2月26日起,夜间自由期的API呼叫价格从00:30到08:30北京时间大大降低:DeepSeek-V3已降低到原始价格的50%,而DeepSeek-R1已降低到25%。 DeepSeek鼓励用户充分利用这一时期,并享受更经济,更顺畅的服务体验。

此外,还有报道说,DeepSeek正在寻求巩固其优势并尽快启动R2模型。该消息提到,DeepSeek最初计划在5月初发布R2模型,现在将加快这一速度。 DeepSeek尚未对此做出回应。

以前,DeepSeek在R1论文中提到,在下一版本中,R1的性能将得到改善,因为RL(增强学习)培训数据仍然很少。随着RL数据的增加,该模型解决复杂的推理任务的能力继续稳定增长,并且某些复杂的行为能力自然会出现。

该行业认为,DeepSeek-R2的推出可能是AI行业的关键节点。

上一篇 物价研究难点与局限:价格信息在经济分析中的优势与挑战解析 下一篇 美国232调查对国际经贸关系的影响及其贸易保护主义措施分析
评论
更换验证码