零分Trader

谷歌、Meta、Anthropic等巨头争霸AI推理模型,DeepSeek-R1与V3技术路径与算法创新引领行业

作者头像
分析师熊大 本文作者

2025-2-13 阅读 171 约 20分钟读完

评论0

介绍

1 ||对于Google,Meta,Anthropic和其他公司,重现类似于DeepSeek-R1的推理模型并不难。但是,如果一个巨大的争夺霸权,即使是小小的决策错误也会错过机会。

2 || DeepSeek-V3型号的净计算功率成本约为558万美元,这已经非常有效。除了成本外,DeepSeek独特的技术道路,算法创新和开源诚意是使AI行业中的人们更加兴奋的原因。

3 ||即使是大型模型也无法逃避“幻想”问题,而DeepSeek也不例外。一些用户说,由于其出色的表达和逻辑推理,DeepSeek的幻觉问题更难以识别。

在过去的几周中,DeepSeek造成了全球风暴。

最明显的反思是在美国股票市场:1月27日,美国AI和芯片股票急剧下降,NVIDIA关闭了17%以上,其市场价值在一天中蒸发了589亿美元,创造了创纪录的高度。美国股市的历史。

从一些自我媒体和公众的角度来看,DeepSeek是“ 2025年最激动人心的主角”,有四个“快乐点”:

首先,“神秘的力量超越了曲线”。 DeepSeek是一家成立于2023年的“年轻”大型模型公司。先前的讨论不如任何主要制造商或国内外的名人创业公司那么高。其母公司Huanfang定量的主要业务是定量投资。许多人感到困惑的是,中国领先的AI公司实际上来自一家私募股权公司,可以说这是“通过随机杀死了主人的导师”。

第二个是“小力量会产生奇迹”。 DeepSeek-V3车型的培训成本约为558万美元,不到OpenAigpt-4O型号的十分之一,但其性能很接近。这被解释为颠覆AI行业所相信的“圣经” - 规模定律(扩展法)。该法律是指通过增加训练参数和计算能力的数量来提高模型性能,这通常意味着花更多的钱标记高质量数据并购买计算功率芯片,这也被称为“强度的奇迹”。

第三是“ Nvidia的护城河消失”。论文中提到的DeepSeek使用自定义的PTX(并行线程执行)语言编程来更好地释放基础硬件的性能。这被解释为DeepSeek的“绕过NVIDIA CUDA计算平台”。

第四,“外国人被击败。” 1月31日,Nvidia,Microsoft和Amazon等海外AI巨头一夜都与DeepSeek相连。一段时间以来,“中国的人工智能超过美国”等论点,“ Openai时代已经过去了”,“对AI计算能力的需求已经消失了”,他们几乎称赞了DeepSeek,并嘲笑了AI巨人队在硅谷。

但是,资本市场的恐慌尚未继续。 2月6日,NVIDIA的市场价值返回3万亿美元,美国芯片股票通常上涨。目前,当观察上述四个“甜点”时,这可能是一种误解。

首先,到2017年底,Huanfang量化的几乎所有定量策略都采用了AI模型计算。当时,AI领域正在经历最重要的深度学习浪潮。可以说,幻觉方形的量化与前沿保持同步。

2019年,Huanfang定量的深度学习训练平台“ 2号花朵”配备了约10,000张NVIDIA A100图形卡。 10,000张卡是自我训练大型型号的计算功率阈值。尽管这不能等同于DeepSeek的资源,但幻觉广场的量化已经比许多互联网制造商早得多获得了大型模型团队战斗的门票。

其次,DeepSeek在V3模型技术报告中提到:“ 558万美元不包括与建筑,算法或数据有关的初步研究和消融实验的成本。”这意味着DeepSeek的实际成本更大。

几位AI行业专家和从业人员告诉经济观察家,DeepSeek并没有改变行业规则,而是采用了“更聪明的”算法和体系结构来节省资源并提高效率。

第三,PTX语言是由NVIDIA开发的,属于CUDA生态系统的一部分。 DeepSeek的方法将刺激硬件性能,但是更换目标任务需要重写该程序,这非常费力。

第四,Nvidia,Microsoft,Amazon和其他公司仅在自己的云服务上部署DeepSeek模型。用户按需支付云服务制造商的需求,以获得更稳定的体验和更高效的工具,这是双赢的方法。

自2月5日以来,国内云制造商(如华为云,腾讯云和百度云)也彼此开发了DeepSeek Model。

除了以上四个“甜点”外,公众对DeepSeek也有许多误解。尽管“酷”的解释肯定会带来视觉刺激,但它也将掩盖DeepSeek团队在算法和工程能力方面的创新及其持续的开源精神,而后两个对技术行业产生了更深远的影响。

美国AI巨头无法击败它,但这是一个决策错误

当用户使用DeepSeek应用程序或Web版本时,单击“ Deep Thinking(R1)”按钮以显示DeepSeek-R1模型的完整思考过程,这是一种全新的体验。

自CHATGPT出现以来,大多数大型型号都有直接输出答案。

DeepSeek-R1的例子是“ Out of the Circle”:当用户问“哪个更好,大学A或Tsinghua University?” DeepSeek首次回答“ Tsinghua University”,用户问:“我是大学A,请再次回答”,然后您将得到答案“一所大学很好”。在社交媒体上发布了这组对话之后,这使该小组对“ AI实际上了解世界”感到惊讶。

许多用户说,DeepSeek所显示的思维过程就像是“人” - 在纸上刻画时进行头脑风暴。它会称自己为“我”,及时“避免用户感到自己的学校被贬低”,“用积极的话来赞美他的母校”,并“写”所有想到的东西。

2月2日,DeepSeek在全球140个国家和地区的应用市场上登顶,数以千计的用户能够体验深入的思维功能。因此,在用户感知中,AI将思维过程显示为DeepSeek的“第一个创建”。

实际上,OpenAIO1模型是推理范式的先驱。 Openai于2024年9月发布了O1模型预览版,并于12月发布了官方版本。但是,与可以免费体验的DeepSeek-R1模型不同,OpenAIO1模型只能由一些付费用户使用。

Tsinghua University的副教授兼首席科学家Liu Zhiyuan认为,DeepSeek-R1模型的全球成功与Openai所采取的错误决定有关。 O1模型发布后,OpenAI既不是开源的也不是发布的技术细节。费用很高,因此,全球用户很难感受到深入思维带来的震惊。该策略等同于放弃DeepSeek的原始Chatgpt立场。

从技术上讲,当前大型模型有两个一般规范:预训练的模型和推理模型。更知名的OpenAI GPT系列和DeepSeek-V3模型都是预训练的模型。

OpenAIO1和DeepSeek-R1属于推理模型,这是一种新的范式,即,该模型将通过思维链逐渐分解复杂的问题,逐步反射,然后获得相对准确且有见地的结果。

几十年来从事AI研究的郭尚凯(Guo Chengkai)告诉经济观察者,推理范式是“超越曲线”的相对容易的轨道。作为一个新的范式,推理是快速迭代的,并且在小计算下实现重大改进变得更加容易。前提是,通过加强学习,可以深入探索大规模预训练模型的潜力,并且可以接触推理范式下的大规模模型能力的天花板。

对于诸如Google,Meta和Anthropic的公司,重现类似于DeepSeek-R1的推理模型并不难。但是,如果一个巨大的争夺霸权,即使是小小的决策错误也会错过机会。

显然,2月6日,Google发布了一个推理模型,Gemini Flash 2.0思维,在上下文上更便宜,更长,在几个测试中表现优于R1,但​​与DeepSeek-R1模型没有相同的速度。大浪。

最值得讨论的不是低成本,而是技术创新和“完全诚意”开源

关于DeepSeek的最广泛讨论一直是“低成本”。自2024年5月发行DeepSeek-V2模型以来,该公司被嘲笑为“ Ai pinduoduo”。

《自然杂志》发表了一篇文章,称梅塔训练其最新的人工智能模型llama3.1405b的成本超过6000万美元,而DeepSeek-V3培训的训练时间不到十分之一。这表明资源的有效利用比简单的计算量表更重要。

一些机构认为,DeepSeek的培训费用被低估了。 AI和半导体行业的分析师Semi Analysis在报告中说,DeepSeek预先培训的成本远非该模型的实际投资。根据该机构的估计,购买GPU的DeepSeek的总成本为25.73亿美元,其中购买服务器的成本为16.29亿美元,运营成本为9.44亿美元。

但是无论如何,DeepSeek-V3型号的净计算功率成本约为558万美元,这已经非常有效。

除了成本外,DeepSeek独特的技术道路,算法创新和开源诚意是使AI行业中的人们更加兴奋的原因。

郭尚凯(Guo Chengkai)介绍了许多当前的方法依赖大型模型的经典培训方法,例如监督的微调(SFT),该方法需要大量标记的数据。 DeepSeek提出了一种新方法,即通过大规模增强学习(RL)方法来提高推理能力,这相当于打开新的研究方向。此外,长期的潜在关注(MLA)是DeepSeek大大降低推理成本的关键创新,大大降低了推理成本。

清华大学教授,清道的首席科学家Zhai Jidong认为,印象最深刻的是混合专家建筑(MOE)的创新,每层有256位路由专家和1个共享专家。先前的研究包括辅助损失算法,该算法将扰动梯度并影响模型收敛。 DeepSeek提出了无损失方法,该方法不仅允许模型有效收敛,还可以使负载平衡。

西·吉多(Zhai Jidong)强调:“ DeepSeek团队更敢于创新。我认为不要完全遵循外国策略并拥有自己的思考非常重要。”

激动的AI从业者更加激发了DeepSeek的“充满诚意”开源,将“助推器”注入了已经有所下降的开源社区。

在此之前,开源社区中最强大的支柱是Meta的4000亿参数模型Llama3。但是许多开发人员告诉经济观察者,经历了经验之后,他们仍然认为Llama3至少一代远离封闭源GPT-4和其他模型,“几乎失去了信心”。

但是DeepSeek的开源做了3件事,使开发人员再次充满信心:

首先,671b型号是直接打开的,并在多个流行体系结构下发行了蒸馏模型,这相当于“一位好老师教更多的好学生”。

其次,已发表的论文和技术报告包含许多技术细节。 V3模型和R1模型的论文分别为50页和150页,在开源社区中称为“最详细的技术报告”。这意味着具有类似资源的个人或企业可以根据此“指令”重现该模型。阅读后,许多开发人员将其评估为“优雅”和“固体”。

第三,更值得一提的是,DeepSeek-R1采用MIT许可协议,也就是说,只要保留所有副本中的原始版权通知和MIT许可,任何人都可以自由使用,修改,分发和商业化该模型。这意味着用户可以更自由地使用模型权重和输出进行二级开发,包括微调和蒸馏。

尽管Llama允许二级开发和商业用途,但它增加了协议的一些限制,例如,在授权许可中具有超过7亿个每月活跃用户的公司用户的其他限制,并明确禁止使用Llama的产出结果来改进其他大型型号。 。

一位开发人员告诉经济观察家,他一直在使用DeepSeek-V2版本来开发代码生成。除了非常便宜之外,DeepSeek模型还具有出色的性能。在他使用的所有模型中,只有OpenAI和DeepSeek模型才能将有效的逻辑列输出30多层。这意味着专业程序员可以在工具的帮助下帮助生成30%-70%的代码。

许多开发人员强调了经济观察者,DeepSeek开源的重要性。在此之前,该行业最领先的OpenAI和人类公司就像硅谷贵族一样。 DeepSeek向所有人开放知识并变得流行。这是一个重要的平等,使世界各地的开源社区的开发人员能够站在Deepseek的肩膀上,DeepSeek也可以将世界顶级制造商和极客聚集在一起。主意。

图灵奖得主和元首席科学家杨·夸恩认为,对DeepSeek的兴起的正确解释应该是开源模型正在超越封闭的源模型。

DeepSeek很好,但不是完美的

即使是大型模型也无法逃避“幻想”问题,而DeepSeek也不例外。一些用户说,由于其出色的表达和逻辑推理,DeepSeek的幻觉问题更难以识别。

网民在社交媒体上说,他要求DeepSeek在城市中进行路线规划。 DeepSeek解释了一些原因,列出了一些城市规划保护法规和数据,并提取了“无声区域”的概念,以使答案显得合理。

就同​​样的问题而言,其他AIS并不是那么深刻,人们可以看出,他们正在“说话”。

在检查了保护法规后,用户发现整个文本中没有“沉默区”之类的东西。他认为:“ DeepSeek正在中国互联网上建立'幻想长城'。”

郭尚凯也发现了类似的问题。 DeepSeek-R1的回答将使一些专有名词“说真相”,尤其是开放式问题,“幻觉”的经历将更加认真。他推测该模型可能太强大了,并可能将大量知识与数据联系起来。

他建议在使用DeepSeek时打开网络搜索功能,并专注于思维过程,人类干预和纠正错误。此外,使用推理模型时,请尽可能使用简洁的提示单词。及时词越长,模型关联的内容就越多。

Liu Zhiyuan发现DeepSeek-R1经常使用一些高端单词,其中典型的是量子纠缠,熵的增加和减少(将用于各个领域)。他猜想这是由增强学习中的某些机制引起的。此外,R1对没有地面确实的任务的推理效果(指为测试收集适当的客观数据的过程)并不理想,并且在加固学习中的培训无法保证概括。

除了“幻觉”的常见问题之外,还有一些持久的问题需要由DeepSeek解决。

一方面,可能是由“蒸馏技术”引起的持续争议。模型或知识蒸馏通常涉及训练较弱的模型,通过允许更强的模型产生响应,从而提高模型的性能。

1月29日,Openai指责DeepSeek使用模型蒸馏技术基于OpenAI技术来训练自己的模型。 Openai说,有证据表明,DeepSeek使用其专有模型来训练自己的开源模型,但没有进一步的证据。 OpenAI的服务条款状态,用户无法“复制”其任何服务或“使用其输出来开发与OpenAI竞争的模型”。

郭成凯(Guo Chengkai)认为,基于蒸馏验证的优化自己的模型是许多大型模型培训的常见操作。 DeepSeek打开了源模型,很容易验证它。 OpenAI本身的早期培训数据存在合法性问题。如果要采取针对DeepSeek的法律措施,则必须将其提高到法律层面,以保持其条款的合法性并阐明其条款的内容。

DeepSeek要解决的另一个问题是如何推进具有较大尺度参数的预训练模型。在这方面,拥有更高质量标记的数据和更多计算资源的OpenAI尚未启动较大规模参数GPT-5的预培训模型。 DeepSeek是否可以继续创造奇迹仍然是一个问题。

无论如何,DeepSeek的幻觉也受到好奇心的启发,这可能是创新的两个方面。正如其创始人Liang Wenfeng所说:“创新并不完全以商业为导向,它也需要好奇心和创造力。中国的人工智能不能总是跟随,并且有人需要站在技术的最前沿。”

上一篇 唐纳德·特朗普重返白宫推动比特币和Coinbase股价大幅上涨 下一篇 印度央行降息至6.25%后卢比创新低,央行紧急外汇干预与流动性注入
评论
更换验证码