DeepSeek是国内计算机公司在春季音乐节期间看到的最大的烟火。
在2025年春季音乐节之前,DeepSeek发布了一个大型模特。在春季音乐节期间,国内GPU公司和云计算制造商等揭示了适应DeepSeek模型的进展。为此,许多技术从业人员度过了一个无休止的假期。 DeepSeek Big模型的培训是基于NVIDIA的GPU,该模型目前是全球大型模型的计算能力基础(占90%以上)。但是,DeepSeek还指出了重大转型的可能性:训练具有出色性能的大型模型不需要如此高的计算能力投资。
DeepSeek令人震惊的是技术圈,并且有机会将国内计算能力与国内大型模型相匹配。 Mu Xi Cto Yang Jian认为,在今年年底之前,可能会将一些大型型号的预培训转移到非NVIDIA卡上,明年的这种趋势将更加明显。 “中国市场将慢慢发展,当时NVIDIA将成为计算功率基础的一部分,而其他国内芯片将成为计算功率基础的另一部分。全球计算电源将成为两条平行线。”
国内计算能力与国内模型相匹配
在春季节附近,国内筹码非常适合DeepSeek。
2月1日,Big Model Cloud Service平台Silicon Cloud推出了DeepSeek-V3和DeepSeek-R1。硅云背后的公司特别强调,“在自我开发的推理加速引擎的支持下,基于Huawei Cloud Cloud Ascend Cloud Service部署的DeepSeek模型可以实现与全球高端GPU相同的效果部署模型。”
位于硅的移动首席执行官Yuan Jinhui在春节期间未能休息一天。推出产品后,曾经需要限制流量。他开玩笑说:“对DeepSeek的需求太多了,我认为我们可以抓住它。”
2月2日,Gitee AI说,它在春季音乐节上推出了四个较小的DeepSeek车型,所有这些模型都在开发者市场的国内MU Xixi Cloud GPU上部署。
根据Mu Xi Cto Yang Jian的说法,首先是Fintural Daily,整个过程仅持续两天,从双方之间的谈判到部署完成。 “模型大小决定了使用情况。例如,1.5B型号可以在手机上使用,并且7B及以上的模型可以在云或私人部署中使用。”
2月4日,Moore Thread宣布已在其独立设计的Kuae GPU群集上完成了小型DeepSeek模型的部署,并表示它将很快开放Kuae Smart Computing群集,以支持DeepSeek V3,R1型号和新的新型型号。蒸馏模型的发电分布式部署。
“ DeepSeek V3和R1模型的部署需要聚类的功能。但是,可以在不聚类的情况下部署基于DeepSeek蒸馏的小型模型。Moore线程是基于自我开发的全功能GPU的。发动机解决方案,DeepSeek可以很快实现蒸馏模型推理服务的部署。
2月5日,云服务提供商UC DE宣布,基于Biren Technologn的国内芯片的内存架构和多模型适应能力,它将进行包括R1在内的DeepSeek的完整模型适应工作。 Biren Technology是中国GPU制造商。实际上,在将DeepSeek部署在Biren Technology的芯片上之前,UC已将这种流行模型部署在Nvidia芯片上。
“我们应该在除夕完成部署。” UCD计算产品中心研发总监Wang Xiaohui告诉Caixin,许多技术公司和技术人员都对DeepSeek在这一年之前引起的大型烟火感到震惊,并度过了一个模糊的生活,度过了一个假日春季节日。
在启动DeepSeek-V3/R1之后不久,Kunlun Chip还完成了模型改编版的完整版本,包括DeepSeek Moe型号及其蒸馏的Llama/Qwen和其他小型型号。 Kunlun Chip表示,该公司的P800仅需要32个单位来支持该模型的全参数培训,并完成模型的连续培训和微调。
这些中国芯片公司在发表声明之前和之后,国内和国际技术制造商还表示,他们将DeepSeek模型包括在其工业生态系统中。这些制造商包括国内阿里巴巴云,百度云和腾讯云以及美国亚马逊云技术和元,Google等。
但是,这些主要技术制造商的计算能力库基本上是NVIDIA。
“在大型模型培训的过程中,我认为全球98%的培训是基于NVIDIA GPU计算能力基础的。到目前为止,对非NVIDIA计算能力基础的培训可能只有2%的市场份额。” YANG。”简告诉记者。
王小线还认为,目前,“云中计算能力分布的98%和99%是NVIDIA”。
DeepSeek展示了其超级行业的渗透,但与NVIDIA生态系统没有分开。 Wang Hua认为DeepSeek绕过Nvidia的Cuda是一种误解。从本质上讲,其技术实施仍然深处取决于NVIDIA生态系统的核心组成部分(PTX)。即使框架层试图抽象CUDA API,只要基础层在NVIDIA GPU上运行,就必须与CUDA工具链和硬件驱动程序结合。这种依赖关系反映了AI计算能力领域中“ NVIDIA LED和开源生态系统依赖性”的当前真实模式。
“这只是第一步”
“实际上,使用国内计算能力运行DeepSeek模型实际上相对容易。现在,每个人都迈出了第一步。”王小线说。
自家庭GPU适应主流开源模型以来已经过去了几年,例如支持Meta,Alibaba的Tongyi Qianwen等。总体表现可以大大提高。
目前,与DeepSeek Big Model相匹配的国内GPU的性能远非Nvidia GPU。其背后的原因是DeepSeek模型本身的架构,其培训和推理过程最初是在Nvidia芯片上生产的,并且对Nvidia芯片进行了高度调整。 “在短时间内,很难将这些优化点与国内芯片匹配。我认为这也是主要国内芯片制造商接下来要做的事情。”
国内筹码绕过NVIDIA以吸引最终用户的困难是Nvidia的护城河宽阔而深。
“例如,他(指用户)正在运行(NVIDIA)4090或A(NVIDIA)H100,并且在安装软件时报告了错误。他可以通过访问论坛或询问人们,可以很容易地找到解决方案在他周围遇到类似问题的情况下,可以在社区中找到人们。” Yang Jian告诉记者,许多国内卡的开放信息较少,并且在社区中并不那么活跃。一旦用户遇到卡点,他们将很难遇到它们。为了解决它,需要大量时间来处理它。
这在小型团队中更为明显。
现场广播和数字人物等小型团队有时只有四个或五个人。这些团队缺乏在财务资源中进行操纵的空间和技术迭代进行操作的时间。 “他们必须在制作事物后立即支持团队。哪一个更容易入门,哪个是较少的钱,他必须走这条路,而不是从一开始就在国内生产。”王小线说,小型公司当时部署了大型模型,优先级是Nvidia的计算能力,这是查看结果或最低试用和错误成本的最快方法。
国内筹码通常需要给价格折扣,以更好地进口私有化公司。 Wang Xiaohui认为:“国内计算电源卡的成本效益必须增加20%,甚至30%,否则公司很少愿意采取主动权来取代它们。”
过去几年中,美国实施的高端计算芯片禁令使中国公司更难获得NVIDIA产品。在DeepSeek变得流行后,一些美国公司开始炒作进一步限制中国芯片进口。美国禁令迫使中国芯片公司开发。
“在DeepSeek变得流行之后,美国公司感到非常恐慌。因此,对中国计算能力的控制肯定会变得更加严格。如果我们没有任何突破,计算能力将成为瓶颈。因此,国内计算能力是不可避免的走路的路。”王小岛说。
平行计算电源线
根据Yang Jian的观察,DeepSeek发表的技术报告为芯片设计提供了一些建议。
“当它运行H800本身时,发现某些设计本身并不合理。例如,芯片占据了很多计算能力可以进行交流,而DeepSeek提出了是否可以提取通信。Nvidia很难遵循此操作。 Yang Jian说:“建议进行改进,但国内卡可以采用这一观点芯片并没有尽早开始,而且技术堆栈也没有那么深。如果您想进行一些调整,那应该是相对轻巧的。”
与其他国内大型型号相比,DeepSeek携带国内筹码并不容易。但是王小线也相信,只要您遵循这一开发道路,您肯定会越来越适应它。
王小线说:“不可能一次无缝将所有关于NVIDIA的优化迁移到国内卡。这具有适应性周期和流程。但是,借助这样的模型架构,国内卡可以进行一些软件升级,以及一些芯片工厂,以及一些芯片工厂仍在芽中的设计中可能有一些新想法,这可以使DeepSeek优化更好。”
诸如Tencent Cloud和UCID之类的平台具有近100个配备它们的大型型号。除了使用Nvidia芯片外,它们还适用于几年前Biren Technology等国内芯片。
最早,UCID需要进行大量改编和调试,以使国内卡运行。但是当时,“跑步时可能已禁止国内卡。”
“最初,我们测试了一些卡片,一张卡的性能可能达到一定水平的NVIDIA。一旦我们达到了多张卡和多台机器,性能显然会恶化。” Wang Xiaohui几年前开始测试一些国内卡,她觉得自己取得了重大进展。 “自去年以来,我们可以看到这部分已经得到缓解,并且有了很大的进步。”
每天都在国内计算能力也在增加。
在蛇年的建设开始的那天,昆伦奇普的新一代产品P800万张纸牌集群被点燃。 Kunlun Core还适应了各种大型模型的推理和培训任务,例如Wenxin系列,Llama,Qwen,Chatglm等。 Moore Thread已在制造和工程机械上进行了调整并拉动了数百种LLM型号的培训。许多行业(例如教育,金融,政府事务和AI绘画)已在一定程度上使用。
Yang Jian认为,在今年年底之前,一些大型模型的预培训可能会转移到非NVIDIA卡上,明年这种趋势将更加明显。 “到2026年和2027年,我认为NVIDIA仍将是美国培训前甚至在美国培训后最重要的计算能力基础。但是中国市场将慢慢发展,NVIDIA将成为计算能力基础的一部分,其他国内芯片是计算电源基础的另一部分。
目前,NVIDIA GPU在计算功率性能和生态成熟度方面仍然具有优势。大型模型(例如DeepSeek)很难在短期内完全偏离其生态系统。但是从长远来看,随着国内替代的发展,算法优化功能的提高以及行业对供应链安全的重视,单一依赖的风险将逐渐降低。
“这个过程需要时间和技术的积累,但这是一个不可逆转的趋势。未来的计算功率基础更有可能显示出'多维共存形式'形式,而不是某个制造商的绝对优势。”王华说。