零分Trader

过去一周中国DeepSeek R1模型搅海外AI圈,低成本复现关键技术获大咖高度评价

作者头像
分析师熊大 本文作者

2025-1-27 阅读 124 约 27分钟读完

评论0

过去一周,来自中国的DeepSeek R1模型轰动了整个海外AI圈。

一方面,以更低的训练成本实现了与OpenAI o1相当的性能,展现了中国在工程能力和规模创新方面的优势;另一方面,它也秉持开源精神,热衷于分享技术细节。

近日,潘嘉怡博士的研究团队加州大学伯克利分校的博士生以极低的成本(不到 30 美元)成功复制了 DeepSeek R1-Zero 的关键技术——“啊哈时刻”。

因此,难怪 Meta CEO 扎克伯格、图灵奖获得者 Yann LeCun 和 Deepmind CEO Demis Hassabis 都对 DeepSeek 给予了高度评价。

随着DeepSeek R1的热度持续走高,今天下午,DeepSeek App的服务器因用户访问量激增而暂时繁忙,甚至一度“崩溃”。

OpenAI CEO Sam Altman 刚刚试图揭露 o3-mini 的使用限制,从而抢占了国际媒体的头条——ChatGPT Plus 会员每天可以查询 100 次。

然而鲜为人知的是,在成名之前,DeepSeek的母公司欢方量化实际上是国内量化私募领域的龙头公司之一。

DeepSeek模式震惊硅谷,其含金量还在不断上升

2024年12月26日,DeepSeek正式发布DeepSeek-V3大模型。

该模型在多项基准测试中表现出色,超越了业界顶级主流模型,尤其是在知识问答、长文本处理、代码生成和数学能力等方面。例如,在MMLU、GPQA等知识任务中,DeepSeek-V3的表现接近国际顶级模型Claude-3.5-Sonnet。

在数学能力方面,它在AIME 2024和CNMO 2024等测试中创造了新记录,超越了所有已知的开源和闭源模型。同时,其生成速度较上一代提升200%,达到60 TPS,极大提升了用户体验。

根据独立评测网站Artificial Analysis的分析,DeepSeek-V3在多项关键指标上超越其他开源模型,在性能上与全球顶级的闭源模型GPT-4o和Claude-3.5-Sonnet看齐。

DeepSeek-V3的核心技术优势包括:

混合专家(MoE)架构:DeepSeek-V3有6710亿个参数,但在实际操作中,每次输入仅激活370亿个参数。这种选择性激活方法在保持高性能的同时大大降低了计算成本。

多头潜在注意力(MLA):该架构已在 DeepSeek-V2 中得到验证,可以实现高效的训练和推理。

无辅助损失的负载均衡策略:该策略旨在最小化负载均衡对模型性能的负面影响。

多令牌预测训练目标:该策略提高了模型的整体性能。

高效的训练框架:采用HAI-LLM框架,支持16路Pipeline Parallelism(PP)、64路Expert Parallelism(EP)和ZeRO-1 Data Parallelism(DP),并通过多种优化方法降低训练成本。

更重要的是,DeepSeek-V3的训练成本仅为558万美元,远低于GPT-4的7800万美元的训练成本。而且,其API服务价格也延续了以往的亲民化。

输入代币每百万只花费 0.5 元(缓存命中)或 2 元(缓存未命中),输出代币每百万只花费 8 元。

英国《金融时报》将其描述为“震惊国际科技界的一匹黑马”,并认为其性能可与资金雄厚的 OpenAI 等美国竞争对手模型相媲美。 Maginative创始人Chris McKay进一步指出,DeepSeek-V3的成功可能会重新定义AI模型开发的既定方法。

换句话说,DeepSeek-V3的成功也被视为对美国算力出口限制的直接回应。这种外部压力反而刺激了中国的创新。

DeepSeek创始人梁文峰,低调的浙大天才

DeepSeek的崛起让硅谷寝食难安。这一轰动全球人工智能行业的模式创始人梁文峰完美诠释了中国传统意义上的天才成长轨迹——年轻成功,恒久成功。

一个好的人工智能公司领导者需要既懂技术又懂业务,既远见又务实,勇于创新,具有工程纪律。这种复合型人才本身就是一种稀缺资源。

17岁考入浙江大学信息与电子工程专业。 30岁时,他创立了Hquant,并开始带领团队探索全自动量化交易。梁文峰的故事证明,天才总是在正确的时间做正确的事。

你不能仅仅取得成功,而想到过去几年里一直袖手旁观的公司。然而,就像量化交易公司向AI转型一样,看似出乎意料,但实际上又符合逻辑——因为它们都是数据驱动的技术密集型行业。

黄仁勋只想卖游戏显卡给我们这些玩游戏不好的人赚钱,没想到却成为了世界上最大的AI兵工厂。与焕芳进军AI领域类似。这种进化比目前许多行业机械应用的大规模人工智能模型更具可行性。

魔方量化在量化投资过程中积累了大量的数据处理和算法优化经验。它还拥有大量的A100芯片,为AI模型训练提供了强大的硬件支持。自2017年起,魔方大规模部署AI算力,打造“萤火一号”、“萤火二号”等高性能计算集群,为AI模型训练提供强大算力支撑。

2023年,魔方量化正式成立DeepSeek,专注于大型AI模型的开发。 DeepSeek继承了Magic Quantitive的技术、人才和资源积累,并在AI领域迅速崛起。

在接受《暗流》深度采访时,DeepSeek创始人梁文峰也展现出了独特的战略眼光。

与大多数中国公司选择复制Llama架构不同,DeepSeek直接从模型结构入手,只是为了瞄准AGI的宏伟目标。

梁文峰毫不掩饰目前的差距。目前,我国人工智能与国际顶尖水平存在显着差距。模型结构、训练动态和数据效率的综合差距需要4倍的计算能力才能达到同样的效果。

▲图片来自央视新闻截图

这种直面挑战的态度源于梁文峰在寰芳多年的经历。

他强调,开源不仅是技术共享,更是一种文化表达。真正的护城河在于团队的持续创新能力。 DeepSeek独特的组织文化鼓励自下而上的创新,淡化等级制度,重视人才的激情和创造力。

团队主要由顶尖大学的年轻人组成,采用自然分工模式,让员工自主探索、协作。在招聘时,我们看重员工的热情和好奇心,而不是传统意义上的经验和背景。

对于行业前景,梁文峰认为,人工智能正处于技术创新爆发期,而非应用爆发期。他强调,中国需要更多原创性技术创新,不能永远停留在模仿阶段。它需要人们站在技术的最前沿。

尽管 OpenAI 这样的公司目前处于领先地位,但创新机会仍然存在。

颠覆硅谷,Deepseek让海外AI圈躁动

虽然业界对DeepSeek的看法不一,但我们也收集了一些业内人士的评论。

NVIDIA GEAR 实验室项目负责人 Jim Fan 对 DeepSeek-R1 给予了高度评价。

他指出,这代表非美国公司正在履行OpenAI最初的开放使命,通过公开原创算法和学习曲线来实现影响力。对了,里面还包含了一波OpenAI。

DeepSeek-R1不仅开源了一系列模型,还公开了所有训练秘密。它们可能是第一个展示 RL 飞轮显着且持续增长的开源项目。

影响力可以通过“ASI内部实现”或“草莓项目”等传奇项目来实现,也可以简单地通过暴露原始算法和matplotlib学习曲线来实现。

华尔街顶级风险投资公司 A16Z 的创始人 Marc Andreesen 认为 DeepSeek R1 是他见过的最令人惊讶和印象深刻的突破之一。作为一个开源项目,它是给世界的一份意义深远的礼物。

前腾讯高级研究员、北京大学人工智能博士后卢静从技术积累的角度进行了分析。他指出,DeepSeek并不是突然流行起来的。它继承了上一代车型版本的诸多创新。相关模型架构和算法创新都经过迭代验证,震动行业在所难免。

图灵奖获得者、Meta 首席 AI 科学家 Yann LeCun 提出了新的观点:

“对于那些在看到 DeepSeek 的表现后认为‘中国在人工智能领域超越美国’的人来说,你的解读是错误的。正确的解读应该是‘开源模式正在超越专有模式’。”

Deepmind CEO Demis Hassabis的言论透露出一丝担忧:

“它(DeepSeek)所取得的成就非常令人印象深刻,我认为我们需要考虑如何保持西方前沿模型的领导地位。我认为西方仍然领先,但中国无疑拥有极其强大的工程和扩展能力。 ”

微软首席执行官 Satya Nadella 在瑞士达沃斯世界经济论坛上表示,DeepSeek 有效开发了一种开源模型,不仅在推理计算方面表现出色,而且在超级计算方面也极其高效。

他强调,微软必须高度重视在中国的这些突破性进展。

Meta首席执行官扎克伯格的评价更为深入。他认为DeepSeek所展现的技​​术实力和性能令人印象深刻,并指出中美之间的AI差距已经很小,中国的全力冲刺让竞争更加激烈。

竞争对手的反应或许就是对DeepSeek最好的认可。据匿名职场社区TeamBlind的Meta员工报道,DeepSeek-V3和R1的出现让Meta的生成式AI团队陷入了恐慌。

Meta 工程师正在争分夺秒地分析 DeepSeek 的技术,并尝试从中复制任何可能的技术。

原因是DeepSeek-V3的培训成本仅为558万美元,甚至还没有一些Meta高管的年薪那么多。如此悬殊的投入产出比,让Meta管理层在解释其庞大的AI研发预算时承受着巨大的压力。

国际主流媒体也对DeepSeek的崛起给予了高度关注。

英国《金融时报》指出,DeepSeek的成功颠覆了“AI研发必须依赖巨额投资”的传统认知,证明精准的技术路线也能取得优异的研究成果。更重要的是,DeepSeek团队对技术创新的无私分享,让这家更加注重研究价值的公司成为异常强大的竞争对手。

《经济学人》表示,认为中国在人工智能技术成本效益方面的快速突破已经开始动摇美国的技术优势,这可能会影响美国未来十年的生产力提升和经济增长潜力。

《纽约时报》从另一个角度切入。 DeepSeek-V3在性能上与美国公司的高端聊天机器人相当,但成本却大大降低。

这表明,即使面临芯片出口管制,中国企业也可以通过创新和有效利用资源来竞争。而且,美国政府的芯片限制政策可能会适得其反,反而促进中国在开源AI技术领域的创新突破。

DeepSeek“报错门”,自称是GPT-4

在好评的同时,DeepSeek也面临着一些争议。

很多外界人士认为,DeepSeek在训练过程中可能使用了ChatGPT等模型的输出数据作为训练材料。通过模型蒸馏技术,将这些数据中的“知识”迁移到DeepSeek自己的模型中。

这种做法在 AI 领域并不罕见,但怀疑者担心 DeepSeek 是否在没有完全披露的情况下使用了 OpenAI 模型的输出数据。这似乎体现在DeepSeek-V3的自我意识上。

早期用户发现,当被问及某个模型的身份时,它错误地将自己标识为 GPT-4。

高质量的数据一直是人工智能发展的重要因素。即使是 OpenAI 也无法避免数据获取方面的争议。其大规模抓取互联网数据的做法也引来多起版权诉讼。目前,OpenAI 和《纽约时报》已做出一审裁决。在靴子落地之前,已经添加了一个新的箱子。

因此 DeepSeek 也得到了 Sam Altman 和 John Schulman 的公开暗示。

“复制你知道会起作用的东西是(相对)容易的。当你不知道它是否会起作用时,做一些新的、有风险的、困难的事情是非常困难的。”

不过,DeepSeek团队在R1的技术报告中明确表示,并未使用OpenAI模型的输出数据,并表示高性能是通过强化学习和独特的训练策略来实现的。

例如,采用多阶段训练方法,包括基础模型训练、强化学习(RL)训练、微调等。这种多阶段循环训练方法有助于模型在不同阶段吸收不同的知识和能力。

省钱也是一项技术活,DeepSeek背后的技术就是最好的解决方案

DeepSeek-R1技术报告中提到了一个值得注意的发现,那就是R1零训练过程中发生的“顿悟时刻”。在模型的中期训练阶段,DeepSeek-R1-Zero开始主动重新评估最初的解决问题的思路,并分配更多的时间来优化策略(例如多次尝试不同的解决方案)。

换句话说,通过强化学习框架,人工智能可能会自发地发展出类似人类的推理能力,甚至超越预设规则的限制。这也有望为开发更加自主和自适应的人工智能模型提供方向,例如在复杂决策(医疗诊断、算法设计)中动态调整策略。

与此同时,不少业内人士正在尝试深入分析DeepSeek的技术报告。 OpenAI 前联合创始人 Andrej Karpathy 在 DeepSeek V3 发布后表示:

DeepSeek(中国人工智能公司)今天心情轻松。它公开发布了前沿语言模型(LLM),并以极低的预算(2048 个 GPU,持续 2 个月,耗资 600 万美元)完成了训练。

作为参考,此功能通常需要 16K GPU 集群来支持,而当今大多数先进系统都使用大约 100K GPU。例如,Llama 3(405B 参数)使用了 3080 万个 GPU 小时,而 DeepSeek-V3 似乎是一个更强大的模型,仅使用了 280 万个 GPU 小时(约为 Llama 3 计算量的 1/11)。

如果这个模型在现实测试中也表现良好(例如,LLM Arena 排名正在进行中,我的快速测试表现良好),那么这将是一个很好的例子,说明如何在资源限制下展示研究和工程能力。令人印象深刻的结果。

那么,这是否意味着我们不再需要大型 GPU 集群来训练尖端的 LLM?不一定,但它表明你必须确保你使用的资源不被浪费,而且这个案例表明数据和算法优化仍然可以带来巨大的进步。另外,技术报告也非常有趣和详细,值得一读。

面对DeepSeek V3使用ChatGPT数据的争议,Karpathy表示,大型语言模型本质上不具备类似人类的自我意识。模型能否正确回答自己的身份,完全取决于开发团队是否有专门构建的自我意识。训练集,如果没有经过专门训练,模型会根据训练数据中最接近的信息进行回答。

此外,该模型将自身标识为 ChatGPT 并不是问题所在。考虑到互联网上无处不在的ChatGPT相关数据,这个答案实际上反映了一种自然的“邻居知识涌现”现象。

Jim Fan在阅读DeepSeek-R1的技术报告后指出:

这篇论文最重要的一点是,它完全由强化学习驱动,没有任何监督学习(SFT)的参与。这种方法类似于AlphaZero——通过“冷启动”和国际象棋从头开始掌握围棋和将棋,而无需模仿人类棋手的玩法。

– 使用基于硬编码规则计算的真实奖励,而不是可以通过强化学习轻松“破解”的学习奖励模型。

– 随着训练的进行,模型的思考时间稳步增加。这不是预先编程的,而是自发的功能。

——自我反思和探索行为现象出现。

– 使用GRPO代替PPO:GRPO去除了PPO中的评论者网络,而是使用多个样本的平均奖励。这是减少内存使用的简单方法。值得注意的是,GRPO是由DeepSeek团队于2024年2月发明的,这确实是一个非常强大的团队。

当Kimi也在同一天发布类似的研究结果时,Jim Fan发现两家公司的研究结果达到了相同的目标:

但两者之间也存在显着差异:

然而,在这个快速迭代的人工智能市场中,领先优势往往转瞬即逝。其他建模公司将很快学习 DeepSeek 的经验并加以改进,也许很快就能迎头赶上。

大车型价格战的始作俑者

很多人都知道DeepSeek有个称号叫“AI拼多多”,却不知道其背后的含义其实源于去年开始的大机型价格战。

2024年5月6日,DeepSeek发布了DeepSeek-V2开源MoE模型,通过MLA(多头潜在注意力机制)和MoE(混合专家模型)等创新架构实现了性能和成本的双重突破。

推理成本降低至每百万代币仅1元,约为当时Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。这一技术突破使得DeepSeek能够在不收取任何费用的情况下提供极具性价比的服务,同时也给其他厂商带来了巨大的竞争压力。

DeepSeek-V2的发布引发了连锁反应。字节跳动、百度、阿里巴巴、腾讯、智普AI纷纷效仿,大幅下调了旗下大机型产品的价格。这场价格战的影响甚至跨越了太平洋,引起了硅谷的高度关注。

DeepSeek因此被称为“AI界的拼多多”。

面对外界的质疑,DeepSeek创始人梁文峰在接受Undercurrent采访时回应:

“抢用户不是我们的主要目的。一方面,我们降低了价格,因为我们正在探索下一代模型的结构,成本先下来了;另一方面,我们也觉得无论是API还是人工智能应该具有包容性。”

事实上,这场价格战的意义远远超出了竞争本身。较低的进入门槛让更多的企业和开发者能够接触和应用前沿的人工智能,也迫使整个行业重新思考定价策略。正是在这个时期,DeepSeek开始进入公众视野并声名鹊起。

花几千买马骨,雷军挖来AI天才少女

几周前,DeepSeek还高调进行了人事变动。

据第一财经报道,雷军以千万年薪成功挖走罗芙丽,并委托她担任小米AI实验室大模型团队负责人的重任。

罗芙莉于2022年加入Magic Square Quantitative旗下的DeepSeek,在DeepSeek-V2和最新的R1等重要报告中都能看到她的身影。

后来,曾经专注B端的DeepSeek也开始布局C端,推出移动应用。截至发稿,DeepSeek的移动应用在苹果App Store免费版中排名高达第二,展现出强大的竞争力。

一系列的小高潮让DeepSeek名声大噪,但同时,也有更高的高潮。 1月20日晚,660B参数的超大规模模型DeepSeek R1正式发布。

该模型在数学任务上表现良好。例如,它在 AIME 2024 上取得了 79.8% 的 pass@1 分数,略高于 OpenAI-o1;在 MATH-500 上得分高达 97.3%,与 OpenAI-o1 相当。

例如,在编程任务方面,它在 Codeforces 上获得了 2029 年 Elo 评分,超过了 96.3% 的人类参与者。在 MMLU、MMLU-Pro 和 GPQA Diamond 等知识基准测试中,DeepSeek R1 的得分分别为 90.8%、84.0% 和 71.5%。虽然略低于OpenAI-o1,但比其他闭源模型要好。

在大型模型竞技场LM Arena最新的综合榜单中,DeepSeek R1排名第三,与o1并列。

开源策略方面,R1采用MIT License,给予用户最大的使用自由度,支持模型蒸馏,可以将推理能力蒸馏成更小的模型,比如32B和70B模型,在多项能力上都达到了o1-mini的基准。开源的效果甚至超越了之前饱受诟病的Meta。

DeepSeek R1的出现,让国内用户首次免费使用o1级模型,打破了长期以来的信息壁垒。它在小红书等社交平台上掀起的讨论热潮可与GPT-4发布时相媲美。

出海渐进

回顾DeepSeek的发展轨迹,其成功代码清晰可见。实力是基础,但品牌知名度是护城河。

在《后来》的对话中,MiniMax CEO严俊杰深入分享了他对AI行业以及公司战略变革的思考。他强调了两个关键转折点:第一,认识到技术品牌的重要性;第二,理解开源战略的价值。

严俊杰认为,在AI领域,技术演进的速度比目前的成就更重要,开源可以通过社区反馈加速这一进程;其次,强大的科技品牌对于吸引人才、获取资源至关重要。

以OpenAI为例。虽然后期遭遇了管理风波,但其早期树立的创新形象和开源精神却为其积累了良好的第一波印象。尽管克劳德未来在技术上已经势均力敌,并逐渐蚕食OpenAI的B端用户,但由于用户的路径依赖,OpenAI在C端用户方面仍然遥遥领先。

在人工智能领域,真正的竞争舞台始终是全球性的。走出去、参与、推广也是一个不错的途径。

这波出海浪潮已经在行业内引起涟漪。早先的Qwen、面墙Smart,以及最近的DeepSeek R1、kimi v1.5、豆宝v1.5 Pro,已经在海外引起了不小的轰动。

虽然2025年被贴上了智能体元年、AI眼镜元年的标签,但今年也将是中国AI企业拥抱全球市场的重要元年,出海将成为绕不开的关键词。

而且,开源策略也是一招好棋,吸引了大量技术博主和开发者自发成为DeepSeek的“自来水”。科技向善不应该只是一个口号。从“AI for All”的口号到真正的技术普惠,DeepSeek走出了一条比OpenAI更纯粹的道路。

如果说 OpenAI 让我们看到了 AI 的力量,那么 DeepSeek 让我们相信:

这种力量最终将惠及所有人。

上一篇 昨日市场动态:Deepseek登顶中美苹果应用商店,低价卓越引科技巨头关注,THORChain将重组 下一篇 今年多地提前至1月密集发布省级重点项目名单,重大项目稳增长作用突显且评审严格
评论
更换验证码