零分Trader

深度诅咒挑战大语言模型训练效率,研究发现深层剪枝对性能影响微乎其微

作者头像
分析师熊大 本文作者

2025-2-13 阅读 125 约 6分钟读完

评论0

“深诅咒”的存在给大型语言模型的培训和优化带来了严重的挑战。

高性能的大型模型通常在培训期间需要数千个GPU,并且需要数月甚至更长的时间才能完成培训课程。这项巨大的资源投资使模型的每一层都经过有效培训,以确保最大程度地利用计算资源。

但是,来自达利安理工学院,西湖大学,牛津大学和其他研究人员的研究人员发现,这些模型的深层在训练过程中表现不佳,甚至可以完全修剪,而不会影响模型性能。

例如,研究人员按一层修剪DeepSeek-7b模型,以评估每层对模型整体性能的贡献。结果表明,模型的深层对性能几乎没有影响,而浅层去除性能将大大降低。这表明,DeepSeek模型的深层层在训练过程中无法有效地学习有用的功能,而浅层则执行大多数特征提取任务。

这种现象称为“深度诅咒”,研究人员还提出了有效的解决方案 - 分层缩放。

深诅咒简介

“深诅咒”现象的根源在于pre-ln的特征。 PER-LN是一种广泛用于变压器体系结构模型的归一化技术,该模型将每一层的输入而不是输出归一化。尽管这种归一化方法可以稳定模型的训练过程,但也带来了一个严重的问题。随着模型深度的增加,前LN的输出差异将成倍增加。

这种差异的爆炸性增长会导致深层变压器块的衍生物接近单位矩阵,从而使这些层对训练期间的任何有效信息几乎没有任何贡献。换句话说,深层在训练过程中成为单元映射,而有用的功能无法学习。

“深诅咒”的存在给大型语言模型的培训和优化带来了严重的挑战。首先,深度培训不足会导致浪费资源。当训练大型语言模型时,通常需要大量计算资源和时间。由于未能有效地学习深层中有用的功能,因此计算资源很大程度上被浪费了。

深度无效性限制了模型性能的进一步改善。尽管浅层可以执行大多数特征提取任务,但深层的无效性阻止了模型充分利用其深度。

此外,“深诅咒”还带来了模型可扩展性的问题。随着模型的规模的增加,深层无效性变得越来越突出,这使模型的训练和优化变得更加困难。例如,当训练超大模型时,深入的训练不足可能会导致模型缓慢收敛甚至无法收敛。

解决方案 - 层状缩放

分层缩放的核心思想是准确控制前LN输出的方差。在多层变压器模型中,每层的层归一化输出乘以特定的缩放系数。该缩放因子与当前层的深度密切相关,是层深度平方根的倒数。

让我给你一个简单易于理解的例子。一个大型模型就像一栋高大的建筑物,每层都是其中之一。分层缩放对每个楼层的“能量输出”进行了很好的调整。

对于较低的楼层(浅层),缩放系数相对较大,这意味着其输出的调整程度较小,能够保持相对强大的“能量”;对于较高的楼层(浅层),缩放系数相对较大,这意味着它们的输出的调整程度较小,能够保持相对强大的“能量”;对于较高的地板(浅层),缩放系数是较小,这有效地降低了深度输出的“能量强度”,并避免了过度的方差积累。

这样,整个模型的输出差异就可以有效地控制,并且不会发生深层差异。 (整个计算过程非常复杂,感兴趣的朋友可以直接阅读论文)

从模型培训的角度来看,在传统的前LN模型训练中,由于深度差异的不断增加,在反向传播过程中,梯度将受到极大的干扰。深度梯度信息变得不稳定,就像通过指挥棒时一样,接力棒在随后的杆的传输过程中总是落下,导致信息传输差。

这使得在训练过程中很难深入学习有效的功能,并且模型的整体培训效果大大降低了。通过控制方差来稳定梯度流。

在反向传播过程中,可以更平滑地从模型的输出层传输到输入层。每一层都可以接收准确稳定的梯度信号,因此参数更新和学习可以更有效。

实验结果

为了验证分层缩放的有效性,研究人员对不同大小的模型进行了广泛的实验。该实验涵盖了从1.3亿到10亿参数的模型。

实验结果表明,与传统前LN相比,分层缩放显着改善了训练阶段的模型性能,从而减少了混淆并减少训练所需的令牌数量。

例如,在Llama-130m模型上,分层缩放量表从26.73降低到25.76,而在具有10亿参数的Llama-1b模型上,混淆从17.02到15.71。这些结果表明,分层缩放不仅可以有效控制深度方差的增长,而且可以显着提高模型的训练效率和性能。

研究人员在监督的微调阶段评估了分层缩放的表现。实验结果表明,在多个下游任务中,分层缩放比较优于其他标准化技术。

例如,在Llama-250m型号上,ARC-E任务的分层缩放率提高了3.56%,所有任务的平均性能提高了1.80%。这表明,分层缩放不仅在训练阶段表现良好,而且还可以显着提高模型在微调阶段的性能。

此外,研究人员将DeepSeek-7b模型的标准化方法从传统的前LN到分层缩放。在整个培训过程中,深层障碍的学习能力得到了显着提高,我们可以积极参与模型的学习过程,并为模型的性能提高做出贡献。混乱的下降更加明显,并且下降速度更加稳定。

上一篇 Story Protocol能否突破新币走势僵局?高融资项目连续上线解析 下一篇 美国CPI超预期上涨,美联储今年或仅降息一次,市场反应剧烈
评论
更换验证码