零分Trader

深度求索DeepSeek-R1大模型发布,中国AI技术震惊全球科技界

作者头像
分析师熊大 本文作者

2025-1-27 阅读 188 约 11分钟读完

评论0

过去一周,中国人工智能大模型成为硅谷及全球科技人士热议的话题。引发这场讨论的是中国人工智能初创公司DeepSeek。

该公司上周发布的大规模推理模型DeepSeek-R1因其堪比OpenAI o1的性能、极低的服务价格、完整的开源代码和模型架构而震惊业界。

多位知名科技人士都对DeepSeek近期取得的成就表示赞赏。

人工智能技术初创公司 Scale AI 的创始人 Alexandr Wang 表示,过去十年来,美国在人工智能竞赛中可能一直领先于中国,但 DeepSeek 大型人工智能模型的发布可能“改变一切”。

加州大学伯克利分校计算机科学教授 Ion Stoica 告诉第一财经记者,DeepSeek-R1 和 DeepSeek-V3 已经表明,只需要花费训练 GPT、Gemini 和 Claude 等现有大型模型的成本。以极低的成本获得最先进的结果。他还表示,在学校的大型模型排名中,DeepSeek-R1在包括开源模型和专有模型在内的所有模型中排名第三。

更重要的是,这一成绩是在美国收紧对华芯片出口管制的背景下取得的。

“限制和资源匮乏往往会刺激创新,这里的情况似乎就是如此。”斯托伊卡告诉第一财经记者。

DeepSeek为何“震惊”硅谷?

受尺度法则(Scaling Law(即计算规模越大,训练数据量越大,模型越智能))影响,全球AI大模型的发展长期陷入“战争”涉及顶尖人才、先进计算能力和巨额投资。军备竞赛”。

各大科技公司都在大量囤积芯片,以保证足够的算力。市场研究公司Omdia最新报告显示,微软是英伟达最大买家,采购了48.5万片英伟达旗舰Hopper芯片,占后者过去一年营收的20%。 Meta排名第二,去年购买了224,000个GPU;而亚马逊和谷歌预计将分别采购196,000个和169,000个Hopper芯片。

然而,当越来越多的科学家开始对堆积数据和算力的“大奇迹”做法产生怀疑时,中国量化交易公司High-Flyer旗下的人工智能初创公司DeepSeek应运而生。用“四两搬千斤”的方法,进步很快。

为了训练模型,Magic Square Quantitative 在美国芯片出口限制之前获得了超过 10,000 个 NVIDIA GPU。虽然据说DeepSeek拥有大约5万颗H100芯片,但这一点尚未得到该公司官方证实。

早在去年12月,该公司就推出了DeepSeek-V3,通过优化模型架构和基础设施,展现了极致的成本效益。从团队官方发布的技术报告来看,包括预训练、上下文长度外推和后训练,DeepSeek-V3完整训练仅需要278.8万H800 GPU小时,其训练成本仅为557万美元,但模型达到与GPT-4o和Claude Sonnet 3.5(来自美国人工智能公司Anthropic)等顶级模型相媲美的性能。

当时著名人工智能科学家Andrej Karpathy写道,这种级别的能力通常需要接近16,000个GPU的集群,而目前市场上的集群规模已达到100,000个GPU左右。

虽然目前尚不清楚新发布的DeepSeek-R1的训练成本,但与同等性能的OpenAI的o1相比,在服务价格方面也具有明显优势。 DeepSeek-R1的API服务定价为每百万输入令牌1元(缓存命中)/4元(缓存未命中),分别是OpenAI o1的2%和3.6%。

人们普遍认为,美国对尖端芯片的出口管制等限制并没有削弱中国的人工智能能力。相反,它们似乎正在推动 DeepSeek 等初创公司以优先考虑效率、资源池和协作的方式进行创新。

卡内基国际和平基金会人工智能研究员马特·希恩表示:“美国的出口管制实际上已经把中国企业逼到了墙角,他们必须利用有限的计算资源来提高效率。未来我们可能会去看到大量与计算资源缺乏相关的整合。”

曾担任斯坦福大学人工智能研究院和数字经济实验室访问学者的中欧国际工商学院决策科学与管理信息系统教授谭银亮告诉第一财经记者:“中国的芯片控制从未停止了;企业创新并未停止。 Deepseek团队的成功就很好地证明了这一点。”

“开源的胜利”

除了极高的性价比之外,让DeepSeek的大型模型脱颖而出的是它的代码和训练方法完全开源。

开源是指将模型的源代码和技术细节公开,允许用户根据自己的需要任意使用和修改模型。这被认为是为了提高技术透明度,让用户使用起来更容易、更便宜,并通过降低迭代成本使开发者受益。 ,防止垄断和其他利益。闭源模型的源代码和技术细节完全由其提供者控制,不向外界公开,也不允许用户自行更改模型。

目前,DeepSeek-R1已经成为开源社区Hugging Face中下载量最大的大型模型,下载量达到10.9万次,这意味着世界各地的开发者都在试图了解这个模型来辅助自己的AI开发。 DeepSeek的服务器26日也出现本地服务波动。该问题在几分钟内得到解决,可能与新车型发布后流量激增有关。

上海交通大学副教授、生成式人工智能研究组组长刘鹏飞告诉第一财经记者,DeepSeek-V3和DeepSeek-R1的发布对大学研究人员来说是一个福音,因为技术细节的公开使得整个流程更加透明。它还允许学术研究人员进入并发现技术堆栈中可以优化并定义新问题的部分。

DeepSeek创始人梁文峰在接受媒体采访时也表示:“面对颠覆性技术,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止其被别人超越。”

梁文峰认为:“开源更多的是一种文化行为,而不是商业行为。给予其实是一种额外的荣誉。企业这样做也会有文化吸引力。”

中国信息通信研究院去年发布的白皮书显示,全球大规模人工智能语言模型数量已达1328个,其中36%来自中国。这使得中国成为仅次于美国的第二大人工智能技术贡献者。阿里云已发布超过100个新的开源AI模型,支持29种语言,满足包括编码和数学在内的各种应用需求。同样,中国的Minimax和01.AI(Zero One Everything)等初创公司也开源了他们的模型。

Meta首席人工智能科学家Yann LeCun也在社交媒体上表示,DeepSeek成功的最大收获不是中国竞争对手的威胁加剧,而是保持人工智能模型开源的价值,让任何人都能受益。

“他们有新的想法,并根据他人的工作来实施。因为他们的工作成果是公开的和开源的,所以每个人都可以从中受益。”杨丽坤说,“这就是开放研究、开源的力量”

中美技术差距缩小

随着中国企业不断发布兼具性能和价格优势甚至开源的大型模型,中美在人工智能方面的差距正在缩小。斯托伊卡说,“我认为这个趋势已经非常明显了。根据LLM Arena的结果,在过去的一年里,中国的开源模式从排名垫底跃升至榜首,至少在Meta推出新的Llama模型之前是这样。”

许多反馈显示,DeepSeek 的行为让 Meta 的生成 AI 团队“陷入恐慌”。 Meta首席执行官扎克伯格宣布,正在加速Llama 4的开发,并计划投资650亿美元扩建数据中心并部署130万个GPU,以“确保Meta AI到2025年成为全球领先的模型”。

不过,多位接受第一财经采访的专家表示,中国人工智能仍需关注其实现“从0到1”的能力。

以DeepSeek-V3为例,根据其技术报告,该模型的正式训练成本约为558万美元,但这一数据不包括架构、算法、数据相关的前期研究和消融实验的成本。对于大型模型训练来说,虽然无效的路径和探索会浪费大量的算力,但如果没有这种“浪费”,就很难实现最终的突破。

刘鹏飞表示,目前看来DeepSeek的大模型起到了加速创新的作用,但这种创新目前只在从1到10的“复制”型工作中得到验证。

“中国的复兴速度非常快。”刘鹏飞表示,“再现”的难度低于“新发现”的难度。未来,我国人工智能研究者需要更加重视从0到1的工作。

正如清华大学计算机系常务副教授刘志远在接受媒体采访时表示:“新的AGI技术还在加速演进,未来的发展路径还不清楚。如何打通接下来迷雾中的新路才是更大的挑战。”

谭银亮还向第一财经记者表示,目前中美在人工智能领域的前沿大模型差距为6至9个月,但多个大模型之间的良性竞争可以更好地促进人工智能在周边的应用。世界。

上一篇 1月PMI降至49.1%,制造业景气回落,装备制造业利润增长支撑工业经济恢复 下一篇 上汽通用汽车2024年回顾与2025年展望:合资品牌如何夺回市场份额
评论
更换验证码