零分Trader

DeepSeek-R1开源模型震撼AI界:低成本高性能技术大幅提升

作者头像
分析师熊大 本文作者

2025-1-26 阅读 148 约 13分钟读完

评论0

不到一个月后,DeepSeek再次震惊全球AI圈。

去年12月,DeepSeek推出DeepSeek-V3,在全球AI领域掀起巨大波澜。它以极低的训练成本实现了与 GPT-4o 和 Claude Sonnet 3.5 等顶级模型相媲美的性能,震惊了业界。腾讯科技对这一模型进行了深度拆解,用最简单、最直接的方法解读其能够实现低成本与高性能的技术背景。

与上次不同的是,此次推出的新型号DeepSeek-R1不仅成本低廉,而且技术上也有很大提升。而且,它也是一个开源模型。

这款新型号延续了其性价比优势,仅以十分之一的成本实现了 GPT-o1 级别的性能。

因此,不少业内人士甚至喊出了“DeepSeek将接替OpenAI”的口号,更多人将目光聚焦在其训练方法的突破上。

例如,前Meta AI工作人员、知名AI论文Twitter作者Elvis就强调,这篇DeepSeek-R1论文是一个宝藏,因为它探索了多种方法来提高大型语言模型的推理能力,并发现了更多具体的涌现属性。

AI圈另一位大V金宇辰认为,DeepSeek-R1论文中提出的模型采用纯RL方法指导其自主学习和反思推理的发现意义重大。

NVIDIA GEAR Lab项目负责人Jim Fan也在推特上提到,DeepSeek-R1使用通过硬编码规则计算出的真实奖励,避免使用任何RL中容易破解的学习奖励模型。这使得模型能够产生自我反思和探索行为。

因为这些极其重要的发现被DeepSeek-R1完全开源,Jim Fan甚至认为这才是OpenAI应该做的事情。

那么问题来了,他们所说的纯RL方法训练模型是什么意思?模型出现时的“啊哈时刻”如何证明AI有能力涌现?我们更想了解的是DeepSeek-R1的这一重要创新对于AI领域的未来发展意味着什么?

用最简单的公式,回归最纯粹的强化学习

o1推出后,推理增强成为业界最关注的方法。

一般来说,模型在训练过程中会尝试固定的训练方法,以提高其推理能力。

在R1的训练过程中,DeepSeek团队直接一次性尝试了三种完全不同的技术路径:直接强化学习训练(R1-Zero)、多阶段渐进训练(R1)和模型蒸馏,并且都获得了成功。多阶段递进的训练方法和模型蒸馏包含许多创新元素,对行业产生重要影响。

最令人兴奋的一种是直接强化学习方法。因为DeepSeek-R1是第一个证明这种方法有效的模型。

我们先来了解一下训练AI推理能力的传统方法是什么:一般是在SFT(监督微调)中加入大量的思想链(COT)例子,使用过程奖励模型(PRM)等例子和复杂的过程。这种类型的复杂神经网络奖励模型就是用来让模型学会用思维链来思考。

甚至会添加蒙特卡罗树搜索(MCTS),让模型能够在多种可能性中搜索最佳可能性。

(传统模型训练路径)

但DeepSeek-R1 Zero选择了一条前所未有的道路,一条“纯粹”的强化学习道路。它完全放弃了预设的思想链模板(Chain of Thought)和监督微调(SFT),仅依靠简单的奖励和惩罚信号进行优化。模型行为。

这就像让一个有天赋的孩子在没有任何例子或指导的情况下纯粹通过尝试和错误来学习解决问题。

DeepSeek-R1 Zero只有最简单的奖励系统来激发AI的推理能力。

只有两条规则:

1. 准确性奖励:准确性奖励模型评估响应是否正确。猜对了就加分,猜错了就扣分。评估方法也很简单:例如,在结果确定的数学问题中,模型需要以指定的格式(例如在 和 之间)提供最终答案;对于编程问题,可以使用编译器根据预定义的测试用例生成反馈。

2. 格式奖励:格式奖励模型迫使模型将其思维过程置于 和 标签之间。如果没有做到,则扣分;如果做到,则加分。

为了准确观察模型在强化学习(RL)过程中的自然进展,DeepSeek甚至刻意将系统提示词限制为仅这种结构格式,以避免任何特定于内容的偏差——例如强迫模型进行反思推理。或促进具体的问题解决策略。

(R1 Zero的系统提示词)

依靠这样一个简单的规则,AI可以在GRPO(组相对策略优化)的规则下自我采样+比较并改进自己。

GRPO模型其实比较简单。通过组内样本的相对比较计算策略梯度,有效降低训练的不稳定性,提高学习效率。

简单来说,你可以把它想象成老师设置一个问题,要求模型同时多次回答每个问题,然后使用上面的奖励和惩罚规则对每个答案进行评分,并根据追求高分、避免低分的逻辑。

流程大概是这样的:

输入问题→模型生成多个答案→规则系统评分→GRPO计算相对优势→更新模型。

这种直接训练方法带来了几个显着的优点。首先是训练效率的提升,整个过程可以在更短的时间内完成。二是减少资源消耗。由于消除了SFT和复杂的奖惩模型,对计算资源的需求大大减少。

更重要的是,这种方法确实让模型学会了思考,并且以一种“顿悟”的方式来学习。

用自己的语言在“顿悟”中学习

我们如何看出模型真的学会了用这种非常“原始”的方法“思考”?

论文记录了一个引人注目的案例:在处理涉及复杂数学表达式 √a – √(a + x) = x 的问题时,模型突然停下来并说“等等,等等。等等。这是一个我可以在这里标记的顿悟时刻” (等等,等等,这是一个值得标记的啊哈时刻),然后重新审视整个解决问题的过程。这种人类顿悟般的行为完全是自发的,而不是预先编程的。

这种顿悟往往就是模型思维能力跳跃的时刻。

因为根据DeepSeek的研究,模型的进展并不是均匀和渐进的。在强化学习过程中,响应长度会突然显着增加,而这些“跳跃点”往往伴随着解决问题策略的质变。这种模式就像经过长时间思考后突然顿悟,暗示着某种深层的认知突破。

伴随着这种能力的提升和顿悟,R1-Zero 在数学界享有盛誉的 AIME 竞赛中从最初的 15.6% 准确率攀升至 71.0%。当模型被要求多次尝试同一个问题时,准确率甚至达到了 86.7%。这不是你读完之后就能做到的——因为AIME题需要深厚的数学直觉和创造性思维,而不是机械地应用公式。在这种改进成为可能之前,模型基本上必须能够推理。

模型确实以这种方式学习推理的另一个核心证据是模型响应长度自然地随着问题的复杂性而变化。这种适应性行为表明,它并不是简单套用模板,而是真正认识到问题的难度,并相应地投入更多的“思考时间”。就像人类在面对简单的加法和复杂的积分时会自然地调整思维时间一样,R1-Zero 也表现出了类似的智能。

也许最有说服力的就是模型所展现的迁移学习能力。在完全不同的编程竞赛平台Codeforces上,R1-Zero取得了超过人类玩家96.3%的水平。这种跨领域的表现表明,该模型并不是在记忆特定领域的问题解决技巧,而是掌握了某种通用推理能力。

这是一个聪明但不善言辞的天才

尽管R1-Zero表现出了惊人的推理能力,但研究人员很快发现了一个严重的问题:它的思维过程往往很难被人类理解。

论文坦言,这种纯强化学习训练的模型存在“可读性差”和“语言混杂”的问题。

这种现象其实很容易理解:R1-Zero完全通过奖励和惩罚信号来优化自己的行为,而没有任何人类论证的“标准答案”作为参考。就像一个天才的孩子创造了自己的解决问题的方法。尽管他多次尝试过,但向别人解释时却语无伦次。它在解决问题的过程中可能会同时使用多种语言,或者发展出特殊的表达方式,这使得它的推理过程难以追踪和理解。

正是为了解决这个问题,研究团队开发了改进版本的DeepSeek-R1。通过引入更传统的“冷启动数据”和多阶段训练过程,R1不仅保持强大的推理能力,而且学会以人类易于理解的方式表达思维过程。这就像给那个有天赋的孩子一个沟通教练,教他如何清楚地表达自己的想法。

经过这次调优,DeepSeek-R1在某些方面表现出了与OpenAI o1相当甚至更好的性能。在 MATH 基准上,R1 的准确率达到了 77.5%,与 o1 的 77.3% 相似;在更具挑战性的AIME 2024上,R1的准确率达到了71.3%,超过了o1的71.0%。在代码领域,R1在Codeforces评测中达到了2441分,高于96.3%的人类参与者。

然而,DeepSeek-R1 Zero 的潜力似乎更大。在 AIME 2024 测试中使用多数投票机制时,其准确率达到 86.7%,这一结果甚至超过了 OpenAI 的 o1-0912。这种“多次尝试后变得更准确”的特征表明,R1-Zero可能已经掌握了一些基本的推理框架,而不是简单地记住解决问题的模式。论文数据显示,从MATH-500到AIME再到GSM8K,模型表现出稳定的跨域性能,尤其是在需要创造性思维的复杂问题上。这种广泛的性能表明,与传统的特定任务优化模型相比,R1-Zero 可能确实已经发展出了一些基本的推理能力。

因此,虽然还不清楚,但或许DeepSeek-R1 Zero才是真正懂推理的“天才”。

纯粹的强化学习可能是通往 AGI 的意想不到的捷径

DeepSeek-R1的发布之所以让业内人士将注意力集中在纯粹的强化学习方法上,是因为它可以说为AI进化开辟了一条新的路径。

R1-Zero - 这种完全通过强化学习训练的人工智能模型显示出令人惊讶的一般推理能力。不仅在数学竞赛中取得了惊人的成绩。

更重要的是,R1-Zero 不仅仅是模仿思维,而是实际上开发了某种形式的推理能力。

这一发现可能会改变我们对机器学习的理解:传统的人工智能训练方法可能一直在重复一个根本性的错误。我们太专注于让人工智能模仿人类思维。业界需要重新思考人工智能开发中的监督学习。角色。通过纯粹的强化学习,人工智能系统似乎能够发展出更多的原生解决问题的能力,而不是局限于预设的解决方案框架。

虽然R1-Zero在输出可读性上有明显的缺陷,但这个“缺陷”本身或许恰恰印证了其思维方式的独特性。这就像一个天才的孩子发明了自己的方法来解决问题,但发现很难用常规语言解释它。这提醒我们,真正的通用人工智能可能需要与人类完全不同的认知方式。

这才是真正的强化学习。正如著名教育家皮亚杰的理论:真正的理解来自主动建构而不是被动接受。

上一篇 2024年A股光伏板块业绩预告:六成公司亏损,2025年产业复苏拐点临近 下一篇 2024年ST公司业绩预告:扭亏与退市风险并存,多家公司面临终止上市警报
评论
更换验证码