“在春节期间,我们都很忙。我们终于希望有一个如此出色的模特。没有比这更有意义的春节。” Kaiyuan China的董事长Ma Yue告诉Caiyuan China,Kaiyuan China在DeepSeek-R1流行后,中国的一站式大型托管平台,Gitee AI迅速与许多家庭芯片制造商一起促进了模型适应工作。
DeepSeek的冲击波也直接传输到海洋另一侧的Nvidia。在NVIDIA的美国股价于1月27日下降后,它最近开始反弹,但股价尚未达到每股140美元的高价。 2月11日,当地时间,NVIDIA收于每股132.8美元。自2月以来,NVIDIA的股价已经反弹了几天,其市场价值再次上升至3万亿美元,但股票价格尚未消化1月27日的暴跌的影响。市场肯定已经动摇了其的原因”信念“关于NVIDIA的信念隐藏在其背后,人们担心对AI计算能力的需求减少。
国内筹码很少同时发表:升级公司,Mu XI,Biren,Longxin,Tianshu Intelligent Core,Moore Thread,Haiguang Information,Suiyuan Technology,Yuntian Lifei,Kunlun Core和其他CHIP公司都已经完成。 “国内开源模型已经流行,国内计算能力也必须变得流行。” Ma Yue认为,适合DeepSeek的国内芯片的逻辑是使该模型在国内硬件上运行。
极端压力计算能力
DeepSeek是否绕过了芯片硬件计算电源限制?不再需要部署大规模计算能力吗? NVIDIA的股价下降后,国内筹码积极适应DeepSeek。这是否意味着国内筹码已经开始与NVIDIA进行反击?
从能够运行最热门的开源模型到在AI市场上获得更多份额,国内芯片可能无法在一夜之间实现。 Mu Xi Cto Yang Jian告诉记者,预计今年将加入更多的非NVIDIA卡,而DeepSeek推广的大型模型的私有化也是国内筹码的机会。
至于DeepSeek对芯片硬件计算潜力的探索是否意味着对高性能NVIDIA GPU的需求减少,行业内部人士有不同的意见。
鉴于DeepSeek-V3培训预算低于“ 2048 GPU,2个月和接近600万美元”,该行业认为,DeepSeek-R1模型的培训成本(与OpenAI O1相当)也可能非常低。这意味着大型模型培训不一定需要使用大量的NVIDIA GPU。 DeepSeek的技术报告还引起了一些讨论,例如大型模型团队对芯片硬件计算能力进行了深入挖掘,或提供一条低成本的路线,可以绕过芯片计算功率限制。 DeepSeek使用许多方法来探索现有芯片的潜在计算能力。
令人惊讶的是,对AI行业和学术界的分析变得平静。讨论的重点是DeepSeek在多大程度上探索了现有芯片的潜在计算能力以及它是否可以继续探索它。最近,来自Tsinghua大学,Fudan University和Shanghai Jiotong University的计算机领域的学者进行了有关DeepSeek技术和影响的在线讨论。 Tsinghua University计算机科学系教授Zhai Jidong在讨论中解释说。例如,DeepSeek团队完善了计算和通信,以减少开销的通信。为此,提出了一种管道并行算法,旨在将其分配给用于通信的GPU SMS(流处理器)的数量,以实现计算和通信之间的完全重叠。这种方法改善了GPU资源的利用。为了实现优化目标,团队在控制SM使用时使用了PTX。
“几乎所有的深度学习或大型算法工程师都不会触及PTX层,而PTX实际上直接与基础硬件进行交互。如果您可以使用PTX,则可以更好地编程并致电基础硬件。” Dai Guohao,副教授Dai Guohao在上海Jiaotong大学和Wuwen Xinqiong的联合创始人中,DeepSeek在确定算法,模型和硬件的确定下优化了该软件,并允许系统和模型通过PTX语言优化释放基础硬件性能。
Dai Guohao认为,在考虑硬件约束方面,该行业的优化侧重于算法准确性,后来关注软件和硬件的协调优化。 “但是现在必须面对一件事,也就是说,计算能力或资源限制可能不足。如何将资源(因素)放在优化功能上?DeepSeek给出了一个很好的答案。墙面智能的创始人总结说,R1和V3带来的重要性是使人们看到,通过有限的计算资源和强大的算法创新,计算功率限制可能会破坏。 “
一些行业内部人士认为,DeepSeek提出的方法可以继续扩大其使用并产生广泛的影响。 “大型模型生态系统具有从顶级产品应用程序到基础基础架构进行优化的空间。是否有可能在每个级别进行优化,最终形成叠加以使整体优化性能更高?这是我们看到的方向DeepSeek纸。在他的团队统计数据中,大约1/3的国内芯片还可以通过相应的优化释放基础硬件性能,而优化后的性能甚至可以达到3次以上。
但是,一些芯片行业内部人士认为,DeepSeek团队在优化基础计算能力方面接近上限,相关技术很难迁移。中央景观半导体董事长陈维(Chen Wei)告诉记者,像DeepSeek这样的“压” GPU计算能力的道路可以继续前进,但几乎没有进一步改进的可能性。
“ DeepSeek AI Infra团队的软件和硬件协作设计水平可能会暂时超过大多数国际大型模型公司。基本上,DeepSeek团队对GPU性能利用的优化接近技术限制。” Chen Wei说,DeepSeek使用的某些培训费用由某些培训费用使用。优化属于CUDA定制技术,其他竞争对手可能没有类似的自定义功能。例如,混合精度存储/计算属于DeepSeek内的定制技术,该技术在定量交易中具有与FPGA优化的主要相似之处。这种定制技术通常很难简单复制。
在辩论中,对于没有计算能力限制的海外公司,立即减少计算能力支出的海外公司似乎是不必要的。在NVIDIA的股票价格波动时,海外云制造商没有开始降低支出。 2月6日,东部时间,亚马逊宣布将在2025年的人工智能项目的研究和开发中投资约1000亿美元。市场研究公司TechInsights发布了一份报告,称数据中心/云计算占85%至90%在NVIDIA的总收入中,最高的超大云服务提供商将在2025年向AI投资3200亿美元。尽管有疑问,技术巨头的投资仍然没有减弱。
尽管是否减少了对大规模模型培训的计算能力需求,但目前关于计算能力对推理的需求的提高仍有更多的共识。 TechInsights表示,在DeepSeek-R1引发了激烈的讨论之后,人工智能的前景是从训练转向推理。 NVIDIA先前的回应还提到,DeepSeek等人工智能公司的推理过程需要大量的NVIDIA GPU和高性能网络。 DeepSeek的成功表明,NVIDIA芯片的市场需求仍然很强。
如何削减国内计算能力
国内筹码最近非常受欢迎。
根据各种芯片制造商的描述,适应DeepSeek型号所需的时间短达一两天甚至几个小时。蒂安舒·齐辛(Tianshu Zhixin)的相关消息来源告诉记者,春季音乐节期间,DeepSeek已成为该行业的重点。该公司认为R1的开源可能会带来更大的计算能力需求。开发人员还需要基于R1的二级开发和优化培训的计算能力支持。公司和合作伙伴与时间竞争促进了DeepSeek模型的适应和推出。
马·尤(Ma Yue)告诉记者,国内开源模型的出现在国内计算能力中起了“反向”的作用。适应速度更快的原因是因为DeepSeek具有更高的优先级。一些芯片制造商内部人员还告诉记者,不难适应DeepSeek,因为它适用于DeepSeek模型的推理应用而不是培训。
国内大型模型已从圈子中释放出来,以给予国内计算能力激励措施。
与天舒·齐克森(Tianshu Zhixin)有关的人告诉记者,DeepSeek使用自我强化学习优化算法和其他技术。为了匹配这些唯一的算法,芯片制造商将优化硬件体系结构,改进指令集,提高芯片的处理效率,以实现复杂计算的处理效率,并优化内存管理和数据。传输等适应模型结构。国内模型的突破是加速国内“模型 +系统 +芯片”闭环的机会。国内模型的性能提高可以吸引更多的国内系统和芯片制造商合作,芯片制造商还将开发更多适应性的芯片以支持国内模型。 。与封闭的源模型相比,开源增加了将不同芯片适应模型的机会。
“ DeepSeek做得非常好,在某些情况下使国内模型超过或超过海外模型,发射了第一枪。现在,外国芯片,模型和系统已经形成了一个完整的闭环生态系统,而国内也将进入未来。
上海人工智能研究所数字经济研究中心的高级顾问Yu Qingyang提到了DeepSeek的国内筹码。 “ DeepSeek通过强化学习机制将模型的无效培训降低了60%,与传统体系结构相比,对并行计算的需求减少了40%,这使得在特定计算任务中国内芯片的能源效率最高为NVIDIA GPUS的75% 。” Yu Qingyang说,尽管它在计算功率依赖性和概括能力方面仍然面临挑战,但DeepSeek的创新模型最初证明算法创新可以通过计算功率瓶颈而破裂。美国通过A100/H100禁运来遏制我国家发展的战略,随着华为上升910B的努力,在绩效和能源效率方面不断优化国内芯片未来。
Yang Jian看到了DeepSeek的机会,可以在私有化部署领域推广国内筹码。他告诉记者,过去,大型模型进行微调和蒸馏的方法较少,而R1不使用SFT(有监督的微调)和Lora。模型性能仅通过增强学习技术出现,并且该方法的成本仍然很低,此方法也可以用于DeepSeek以外的其他模型。
一般而言,蒸馏技术可以将“教师模型”的能力注入较小的参数中。蒸馏技术越好,“学生模型”的能力越强,而参数较小的模型更适合私有化部署。 Yang Jian认为,DeepSeek的方法将促进垂直领域中大型模型的实施,而DeepSeek引起的大型应用程序的爆炸将从私有化部署领域开始。 “ 2025年国内GPU的一个机会是私有化部署。基本上,这个市场将集中于后型模型培训和推理。” Yang Jian告诉记者,根据NVIDIA的GPU应用于AI领域的方式,NVIDIA卡它基本上在零售市场中消失了,而私有化部署则更多地依赖于零售市场。如果私有化部署市场爆炸,国内卡将有很大的机会。
2月6日,DeepSeek暂停了API(接口)充值服务,DeepSeek正式解释说服务器资源很紧张。除了API方法,作为开源模型,DeepSeek-R1也可以由个人或企业本身部署在自己的服务器上。最近,许多从事DeepSeek本地部署业务的商店已经出现在电子商务平台上,这间接证实了市场对DeepSeek私有化部署的热情。记者注意到,已在商店出售了3,000多件商品,出售DeepSeek本地部署教程,约有15元。
Yang Jian告诉记者,随着海外芯片计算功率限制方法带来的困难,全球计算能力可能会形成两种并行路线并逐渐解散。到2026年和2027年,预计在美国进行培训和培训后培训的计算能力基础预计将是NVIDIA,在中国,它的一部分是由NVIDIA承担的,部分是由国内筹码进行的。其中,更多的非NVIDIA卡将逐渐加入今年的训练后部分,因为训练后需要相对较低的群集要求,并且不需要超过1,000卡路里的簇。天舒智能核心的相关资料还告诉记者,随着国内模型的突破以及对国内芯片适应的需求增加,今年国内芯片开发的机会很大。
DeepSeek模型的受欢迎程度也意味着AI应用程序爆炸的机会,芯片制造商将注意力转移到AI应用所需的推理和计算能力上。 “去年,当国内芯片评估主要集中在培训上,而国内筹码被用作NVIDIA培训的替代者。从2025年开始,将会发生变化,也就是说,每个人都会逐步研究家用芯片在该公司中的机会推理市场。”杨·简也说。
差距仍然很大
国内筹码已经看到了机会,但是对NVIDIA进行反攻击的过程仍然逐渐。一些行业内部人士强调了NVIDIA生态系统的高潮和当前国内筹码的缺点。
尽管许多芯片制造商在短时间内都对DeepSeek模型进行了改编,但Ma Yue告诉记者,与NVIDIA相比,适应开源模型的国内芯片之间仍然存在差距。 “开源社区Huggingface拥有数百万个开源人工智能模型,我们的平台超过10,000。这些型号可以在NVIDIA GPU上自由,平稳地运行,但是我们合作的家用芯片制造商最多,现在最长的时间。现在。我们也是一家国内芯片制造商。
是否容易适应大型模型,例如基于NVIDIA GPU开发的DeepSeek,与该芯片是否与CUDA兼容有关。 Yang Jian说,与CUDA兼容的制造商彼此之间的兼容性也不同。一位行业内部人士告诉记者,有一些CUDA兼容性较低的芯片制造商实际上投资了数百人的团队,并且花了一个多月的时间来适应DeepSeek-V3。适应性和优化的速度对于是否可以及时在线启动并商业转换至关重要。
“通常,该模型将每3到4个月迭代一次。如果需要很长时间才能适应模型,则意味着它不会赚钱。” Yang Jian说,该公司连续四个星期遇到了经验。有新的模型出现,相关优化工作必须每周完成,并且每个模型必须在1到2天内完成。
DeepSeek推出了R1和R1-Zero的两个660B参数(B,IE,十亿个),同时还将6款具有较小参数的型号蒸馏到开源社区。关于适应情况,陈维告诉记者,目前最适应性的国内芯片仍然是蒸馏模型,实际功能可能会被折现。对于国内芯片制造商来说,更多的机会在于随后的DeepSeek蒸馏模型的培训和部署。
在大规模的预训练方面,由于相对完整的NVIDIA生态系统和先进的互联网技术,一些行业内部人士认为,其他芯片仍然很难取代NVIDIA。 Chen Wei说,如果需要超过6000亿元的参数量的超大规模模型的培训和部署,国内芯片也将面临互连和生态学方面的挑战。在培训方面,大型模型目前对高速互连有很高的要求,并且大多数国内芯片无法满足NVIDIA的互连性能。如果允许DeepSeek团队仅支持国内筹码,则该团队将不得不将国内芯片适应整个生态系统,这将有很多工作。要“ 10个深索人还不够”。
Chen Wei强调,DeepSeek仍然对NVIDIA CUDA生态系统具有明显的路径依赖。包括DeepSeek(专家)模型,在市场上可以看到的大多数MOE模型都基于CUDA生态培训和部署。 DeepSeek的成本优化技术也基于CUDA生态系统的定制技术。基本上,大型模型培训和优化仍然需要基于NVIDIA CUDA生态系统。
Yang Jian还说,全球98%的大型型号是基于Nvidia的计算能力,而培训与NVIDIA的GPU密不可分。尽管更多的非NVIDIA卡将有机会今年进入培训后部分,但短期内它们的比例相对较低。
(Ning Jiayan也为本文做出了贡献)