零分Trader

梁文锋与杨植麟挑战Transformer架构:DeepSeek与月之暗面发布最新论文

作者头像
分析师熊大 本文作者

2025-2-20 阅读 151 约 11分钟读完

评论0

当两个创始人将他们的名字写入纸上时。

同一天,马斯克(Musk)发行了他的Grok3,他用200,000张纸牌训练了这两张纸牌,两篇与MA的奇迹“相反”的论文也发表在技术界。

在这两篇论文的作者中,每个都有一个熟悉的名称:

Liang Wenfeng,Yang Zhilin。

2月18日,月球的深层和黑暗的一面几乎同时发行了他们的最新论文,主题直接“碰撞” - 都挑战了变压器架构的最核心注意机制,从而使其可以更有效地处理它更长的时间。语境。更有趣的是,两家公司技术明星的创始人的名字出现在各自的论文和技术报告中。

DeepSeek的论文标题为“本地稀疏注意:硬件一致且本地可训练的稀疏注意力”。

根据该论文,与全部注意机制相比,基准中提出的新建筑NSA(本地稀疏注意)的精度相同或更高。当处理64K标记序列时,速度可以提高到11.6倍,并且训练也更有效,并且需要更少的计算能力。在使用超长上下文(例如书籍摘要,代码生成,推理任务)处理任务方面表现良好。

与人们以前谈论过的算法创新相比,DeepSeek将他的手扩展到了最核心关注机制的转变。

变形金刚是当今所有大型模型繁荣的基础,但其核心算法的关注机制仍然存在先天问题:将阅读用作隐喻,传统的“全部关注机制”可以读取文本中的每个单词,以理解和生成它。并将其与所有其他单词进行比较。这会导致处理文本的时间越长,它越复杂,技术越多,甚至崩溃了。

以前,学术界一直在提供各种解决方案。通过工程优化和实际环境实验,NSA组装了一个由三个可以在培训阶段使用的链接组成的架构解决方案:

它包括1)语义压缩 - 不再查看每个单词,而是分为一个组,即“块”,将序列长度降低到1/k,同时保留全局语义,并引入编码以减小大小的位置序列。信息丢失,从而将计算复杂性从O(N²)降低到O(N²/K)。

2)动态选择 - 该模型使用一定的评分判断机制来挑选出文本最关心的单词,并对它们进行细粒度的计算。这种重要性采样策略可以维持98%的细粒度信息,而不会减少75%的计算量。

3)滑动窗口 - 如果前两个是摘要和要点,则滑动窗口是查看最近的上下文信息,以便它可以保持一致性,并且可以通过硬件级视频内存将内存访问频率降低40%多路复用技术。

这些想法中的每一个都不是DeepSeek的发明,而是可以认为是类似于ASML的作品 - 这些技术元素已经存在,到处散落,而是将它们一起设计成扩展的解决方案,没有人完成算法体系结构然而。现在,有人通过强大的工程功能创建了“光刻机器”,其他人可以在实际工业环境中使用该功能来训练模型。

同一天,《月球黑暗面》发表的论文提出了一个非常一致的核心思想建筑:moba。 (MOBA:长篇文化LLM的块ATCTENT的混合物)

如您所见,它还使用将“单词”变成块的方法。在“切割”之后,在MOBA中有一个封闭式网络,例如“智能过滤器”。它负责选择与“块”最相关的顶级块,并且仅计算这些选定块的注意力。在实际实施中,MOBA还结合了闪存的优化方法(这可以使注意力计算更有效)和MOE(专家混合模型)。

与NSA相比,它强调了灵活性,并且现在并没有完全留下最主流的全部注意机制,而是设计了一种自由切换的方法,以便这些模型可以在全部注意力和稀疏注意机制之间进行。切换以完全关注更多适应空间的现有模型。

根据本文,随着上下文长度的增加,MOBA的计算复杂性具有明显的优势。在1M令牌测试中,MOBA的6.5倍高6.5倍。当它达到1000万令牌时,它的速度快16倍。此外,它已在Kimi的产品中用于处理日常用户超长环境的处理需求。

Yang Zhilin最初对Yuezhi的最初建立的重要原因是他的论文影响和引用,但是在K1.5论文之前,他的最后一篇论文研究仍在2024年。作为作者的报告,这些报告的作者列表几乎等同于DeepSeek的员工列表,几乎每个人都列出了其中。 NSA只有少数作者。这表明了这两个工作对这两家公司的创始人的重要性及其对了解这两家公司的技术路线的重要性。

可能是这一重要性的另一个细节是,一些网民发现NSA论文在Arxiv上的提交记录表明,它是在2月16日提交的,并且提交是Liang Wenfeng本人。

这不是月亮和DeepSeek的黑暗面“相撞”的第一次。在R1发行的同时,Kimi在K 1.5上发布了一份罕见的技术报告。以前,该公司没有优先考虑其技术思维。当时,这两篇论文还针对RL驱动的推理模型。实际上,如果您在K1.5论文中仔细阅读了这两份技术报告,Yuezhinan分享了更详细的方式,即如何培训推理模型,甚至在信息和详细信息方面,它都高于R1论文。但是DeepSeek趋势后来涵盖了有关论文本身的许多讨论。

可以证明的一件事是Openai最近发行的罕见论文,以解释其O系列模型推理能力,以及DeepSeek R1和Kimi K1.5的名称。 “ DeepSeek-R1和Kimi K1.5通过独立研究表明,使用思维链学习(COT)方法可以显着改善该模型在数学解决问题和编程挑战中的全面性能。”换句话说,这就是Openai所选择的。用于比较的两个推理模型。

“我觉得这个大型模型的这种建筑最令人惊奇的是,它似乎指出了前进的方向,使不同的人从不同角度提出了相似的方向。”

Zhang Mingxing是Tsinghua University的教授,他参加了有关MOBA的核心研究,他在Zhihu上分享了它。

他还提供了一个非常有趣的比较。

“ DeepSeek R1和Kimi K1.5都指向基于ORM的RL,但是自零以来,R1的结构更加“干净”或“较少的结构”,并且已于早些时候启动,并同步开源模型。

Kimi Moba和Deepseek NSA再次指出可以回到后退的稀疏注意力。这次MOBA的结构较低,并且在线较早,并同步开源代码。透明

这两家公司的连续“冲突”有助于人们更好地比较强化学习的技术发展,以及更有效,更长的文本的注意机制的进化方向。

“要结合R1和K1.5来学习如何培训推理模型。将MOBA和NSA结合起来,从不同方面更好地理解。与关注,稀疏性应该存在并可以接受端到端的端到端培训 - - ”张明克斯写道。

MOBA发布后,徐新兰从月亮的黑暗面也在社交媒体上说,这是一项工作了一年半的工作,开发人员现在可以开箱即用。

而且,选择开源的目前注定要在DeepSeek的“阴影”中讨论。有趣的是,今天,当所有公司都积极连接到DeepSeek并开源自己的模型时,外界似乎首次想到了月球的阴暗面。关于Kimi是否将连接以及模型是否为开源,有一个不断的讨论。黑暗的一面和Bean Bao似乎成为唯一的“异常值”。

现在看来,DeepSeek对月球黑暗面的影响比其他玩家更连续,并且从技术路线到用户竞争带来了全面的挑战:一方面,即使它进入了比赛的竞争产品,基本模型功能仍然是最重要的;此外,今天越来越明显的连锁反应是,腾讯的微信搜索和Yuanbao组合正在利用DeepSeek R1的势头来弥补以前错过的营销推出。这场战斗最终是基米和迪亚达奥的。

与月亮的黑暗面打交道的方式引人注目。其中,开源是必须做的。似乎月亮的黑暗面的选择是真正匹配DeepSeek的开源想法 - DeepSeek之后出现的许多开源想法中的大多数都像压力反应,它们仍然以他们的开源想法来跟随他们以前的骆驼时代。实际上,DeepSeek的开源与以前不同。这不再是一种类似美洲驼的防御,它破坏了封闭的对手的开源,而是一种竞争策略,可以带来明显的回报。

月球的黑暗面最近报道说,它已经“针对SOTA(最新的)结果”,这似乎是该新开源模型的最接近的策略,并且要打开最强的模型,最强大的建筑方法实际上将获得其一直渴望在应用方面的影响力。

根据两家公司的论文,MOBA已用于月球黑暗面的模型和产品,而NSA也是如此。它甚至使外界对DeepSeek的下一个模型有更清晰的期望。因此,下一个亮点是由MOBA和NSA训练的下一代模型是否应该再次崩溃,并且仍以开源方式崩溃 - 这也可能是Mojay等待的黑暗面。该节点。

上一篇 Vitalik强调去中心化重要性:比特币和以太坊无需基金会,追求TPS而放弃去中心化是错误 下一篇 民营银行业绩分化:增收不增利与双丰收并存,净息差收窄趋势明显
评论
更换验证码