DeepSeek开源高效FP8 GEMM库DeepGEMM，助力大模型生态搭建

2月26日，在OpenSourceWeek的第三天，DeepSeek宣布开放有效的FP8 GEMM图书馆DeepGemm。

DeepSeek在过去三天中发布与算法有关，并且更具技术性。 Chen Ran是大型模型生态社区Opencsg（开放和超越）的创始人，为第一个财务日报举例说：“这相当于过去的DeepSeek直接给汽车告诉您这辆车的射程为900公里。，但是现在DeepSeek正在挖掘更深入的方法，该方法最多可以驱动900公里。它对应于一些算法和相应的框架，这些“支架”的开源有利于随后的生态结构。

专门针对这次发布的关键字，GEMM（常规矩阵乘法）是线性代数中的基本操作，而FP8 GEMM是一种计算操作，使用8位浮点数来执行矩阵乘法。 FP8是一种低精度的浮点格式，适用于深度学习和高性能计算，可以减少记忆足迹和带宽要求，同时保持高计算效率。

根据DeepSeek的说法，DeepGemm支持传统密集模型和MOE（混合专家）模型的GEMM操作。该代码为基于NVIDIA HOPPER体系结构（例如H100 GPU）的V3/R1系列硬件提供有效的培训和推理支持。

DeepSeek提到，基于此代码库，可以在NVIDIA HOPPER体系结构的GPU上实现1350+ FP8 TFLOPS（每秒浮点操作），从而充分利用计算能力。同时，代码库非常易于设计，只有一个核心内核功能，代码量约为300行，但在大多数矩阵量表上都比专家调整的内核更好。

开源DeepGemm有什么影响？记者将这个问题提交了DeepSeek，该问题回答说，DeepGemm通过FP8和硬件级优化解决了大规模计算效率和资源消耗的痛点，尤其是为实现MOE模型提供了关键支持。它的开源行为不仅加速了技术的民主化，而且可能成为AI计算生态系统的“基础设施”，从而促进该行业以更高效，更低成本的方向发展。

FP8是AI计算的新兴标准。它的效率可以加速对1000亿参数模型的训练并减少记忆需求。当部署在边缘设备或云中时，FP8的低精度计算可以显着改善吞吐量并降低成本。因此，开源DeepGemm可以促进FP8生态系统的普及，降低开发人员使用的阈值，促进更多的框架和模型以适应FP8，并加速行业的迁移到低精度计算。

此外，由于计算复杂性，MOE模型很难实现。 DeepGemm的开源提供了有效的实施参考，该参考可能会产生更多的MOE应用程序（例如多模式模型和边缘端高效模型）。

关于DeepSeek的连续三天的开源代码基础，Chen Ran告诉记者：“我们很震惊。” DeepSeek的最终目标是展示其R1和V3是如何制作的。他认为，DeepSeek现在从某种意义上发布，该算法属于“脚手架”。 “我们必须给每个人'脚手架'，才能真正使每个人都可以继续基于DeepSeek的技术线路，最终可以基于此建立生态系统。”

从长远来看，Chen Ran认为，DeepSeek的开源作用非常有意义，具有模型标准，工具标准和生态基石，因此生态学可以增长。

陈（Chen）判断，DeepSeek的开源代码可能会影响一群从事AI Infra层的从业者。 “ DeepSeek基本上给出了技术堆栈和模型，但数据却缺少，但其他数据也可能重现数据。人们需要找到新的方向的AI Infra层。”但是他还说，这种开源是一把双刃剑。如果DeepSeek开源内容可以很好地使用，那么它也可能受益：“如果您不及时使用它，您将受到影响。”

一些从业者还告诉记者，DeepSeek是由基础级推理加速的开源。 DeepSeek基础技术的开源对从业者有影响，但可能并不大。

上述从业者说：“ DeepSeek对行业的影响才刚刚开始，没人能猜测结局。”

DeepSeek先前宣布将接一个开放五个代码库，DeepSeek将在本周发布两个代码库。 “共享的每条代码都将成为加速AI行业发展的集体推动力。” DeepSeek在公告中说。