零分Trader

DeepSeek开源高效FP8 GEMM库DeepGEMM,助力大模型生态搭建

作者头像
分析师熊大 本文作者

2025-2-26 阅读 125 约 5分钟读完

评论0

2月26日,在OpenSourceWeek的第三天,DeepSeek宣布开放有效的FP8 GEMM图书馆DeepGemm。

DeepSeek在过去三天中发布与算法有关,并且更具技术性。 Chen Ran是大型模型生态社区Opencsg(开放和超越)的创始人,为第一个财务日报举例说:“这相当于过去的DeepSeek直接给汽车告诉您这辆车的射程为900公里。 ,但是现在DeepSeek正在挖掘更深入的方法,该方法最多可以驱动900公里。它对应于一些算法和相应的框架,这些“支架”的开源有利于随后的生态结构。

专门针对这次发布的关键字,GEMM(常规矩阵乘法)是线性代数中的基本操作,而FP8 GEMM是一种计算操作,使用8位浮点数来执行矩阵乘法。 FP8是一种低精度的浮点格式,适用于深度学习和高性能计算,可以减少记忆足迹和带宽要求,同时保持高计算效率。

根据DeepSeek的说法,DeepGemm支持传统密集模型和MOE(混合专家)模型的GEMM操作。该代码为基于NVIDIA HOPPER体系结构(例如H100 GPU)的V3/R1系列硬件提供有效的培训和推理支持。

DeepSeek提到,基于此代码库,可以在NVIDIA HOPPER体系结构的GPU上实现1350+ FP8 TFLOPS(每秒浮点操作),从而充分利用计算能力。同时,代码库非常易于设计,只有一个核心内核功能,代码量约为300行,但在大多数矩阵量表上都比专家调整的内核更好。

开源DeepGemm有什么影响?记者将这个问题提交了DeepSeek,该问题回答说,DeepGemm通过FP8和硬件级优化解决了大规模计算效率和资源消耗的痛点,尤其是为实现MOE模型提供了关键支持。它的开源行为不仅加速了技术的民主化,而且可能成为AI计算生态系统的“基础设施”,从而促进该行业以更高效,更低成本的方向发展。

FP8是AI计算的新兴标准。它的效率可以加速对1000亿参数模型的训练并减少记忆需求。当部署在边缘设备或云中时,FP8的低精度计算可以显着改善吞吐量并降低成本。因此,开源DeepGemm可以促进FP8生态系统的普及,降低开发人员使用的阈值,促进更多的框架和模型以适应FP8,并加速行业的迁移到低精度计算。

此外,由于计算复杂性,MOE模型很难实现。 DeepGemm的开源提供了有效的实施参考,该参考可能会产生更多的MOE应用程序(例如多模式模型和边缘端高效模型)。

关于DeepSeek的连续三天的开源代码基础,Chen Ran告诉记者:“我们很震惊。” DeepSeek的最终目标是展示其R1和V3是如何制作的。他认为,DeepSeek现在从某种意义上发布,该算法属于“脚手架”。 “我们必须给每个人'脚手架',才能真正使每个人都可以继续基于DeepSeek的技术线路,最终可以基于此建立生态系统。”

从长远来看,Chen Ran认为,DeepSeek的开源作用非常有意义,具有模型标准,工具标准和生态基石,因此生态学可以增长。

陈(Chen)判断,DeepSeek的开源代码可能会影响一群从事AI Infra层的从业者。 “ DeepSeek基本上给出了技术堆栈和模型,但数据却缺少,但其他数据也可能重现数据。人们需要找到新的方向的AI Infra层。”但是他还说,这种开源是一把双刃剑。如果DeepSeek开源内容可以很好地使用,那么它也可能受益:“如果您不及时使用它,您将受到影响。”

一些从业者还告诉记者,DeepSeek是由基础级推理加速的开源。 DeepSeek基础技术的开源对从业者有影响,但可能并不大。

上述从业者说:“ DeepSeek对行业的影响才刚刚开始,没人能猜测结局。”

DeepSeek先前宣布将接一个开放五个代码库,DeepSeek将在本周发布两个代码库。 “共享的每条代码都将成为加速AI行业发展的集体推动力。” DeepSeek在公告中说。

上一篇 德国大选后新执政联盟能否驱散经济乌云?2024年第四季度GDP萎缩0.2% 下一篇 民营经济促进法草案二审新增多项保障措施,进一步强化法治保障作用
评论
更换验证码