最近,据报道,来自中国科学家和“ AI教母” Li Feifei的团队的研究人员训练了一种S1模型,其能力与DeepSeek-R1相当的能力少于50美元。记者从相关人员那里学到,该S1模型的培训不是从头开始的,而是根据阿里巴巴云汤蒂·Qianwen模型进行监督和微调。
Li Feifei团队发表的公共文件显示,基于QWEN2.5-32B教学语言模型的监督和微调后的S1-32B模型在竞争数学问题中的表现优于O1-preiview,高达27%(数学和数学和AIME24),与诸如OpenAI的O1和DeepSeek的R1等尖端推理模型的数学和编码功能相当。在此过程中,Li Feifei的团队主要使用一个小型数据集S1K,其中包含1000个问题及其推理轨迹,并开发了预算强迫技术扩展模型思维,并以超低成本建立了高质量的模型。
如何以最简单的方式实现模型测试时间扩展(即允许AI模型在回答问题之前进行更多思考)和强大的推理性能? Li Feifei团队试图“降低”模型成本的尝试背后,开源中的突破,数据和技术都是关键链接。
如何实现?
从技术角度来看,Li Feifei的团队证明了数据样本的高质量和简单的测试时间扩展可能会显着提高模型培训效率。
根据公共文件,研究团队首先构建了一个S1K数据集,该数据集由1,000个精心筛选的问题,配备了推理过程和答案,从Gemini Thinking Thinking实验中完善。基于此数据集,QWEN2.5-32B-INSTRUCT语言模型受到监督和微调,Li Feifei的团队花了26分钟的时间在16 H100 GPU上完成模型培训。
实际上,此数据集仅包含1000个问题,远低于该行业中通常的大规模培训数据。 Li Feifei的团队证实了高质量,困难和多样化数据带来的强烈“紧张”。研究人员首先遵循质量,难度和多样性的三个原则,从16个不同来源收集59,029个问题,包括现有的数学问题数据集,以及研究人员本身创建的概率问题集和脑预告问题。然后,执行样本检查,将较差的格式化数据集过滤掉,然后选择推理链接,最终创建包含50个不同字段的小数据集。
2024年,Li Feifei在接受媒体采访时驳斥了“人工智能模型正在耗尽培训数据”的观点。她认为目前不乏AI培训数据,并且仍有大量差异化数据等待。挖。她强调,高质量的数据比以往任何时候都变得越来越重要,而创建高质量的数据集是人工智能研究的核心。
另一方面,Li Feifei的团队还在培训S1模型的培训中开发了一种“预算强制性”技术,以控制测试过程中花费在模型上的计算金额,以影响模型的推理深度和最终答案。
简而言之,该“预算强制性”分为两种情况:如果模型生成的推理令牌超过了设置的上限,则推理过程被迫结束,并且附加了思想结束的令牌以提示模型输入答案。生成阶段。如果您希望该模型在问题上投资更多的测试时间计算资源,它将抑制令牌的产生,并将“等待”添加到推理轨迹中,以鼓励模型进行更深入的推理探索。研究小组表示,他们证实了这种方法还可以使模型重新检查其答案,这通常会纠正不正确的推理步骤并改善推理性能。
目前,S1模型及其培训数据和代码已在GitHub上开放,研究小组表示,他们希望激发对简单推理的未来研究。
开源模型的攻击
随着大型模型“易钱”冷却,如何以较低的成本培训高性能模型正在成为行业的重点之一。
与Li Feifei团队进行的“监督微调”不同,DeepSeek先前通过DeepSeek-R1的输出将6个小型型号开放给了社区。 DeepSeek说,基于QWEN-32B和LLAMA-70B蒸馏模型,实现了基准在多种功能中进行基准测试的效果。
一位行业内部人士告诉记者,无论是Li Feifei的团队,都可以完善本质数据来监督和微调QWEN还是DeepSeek的蒸馏,DeepSeek-R1被用作教师模型,用作QWEN,并将其用作学生模型,并蒸馏教师模型对学生模型的能力。 ,所有这些都实现了新型号的高性能。这是两种不同的技术路线,但都降低了高性能模型的培训成本。
随着DeepSeek的流行以及基于Tongyi Qianwen的低成本培训,开源大型模型对行业结构的影响正在加深。根据开源社区拥抱面的数据统计数据,国内外开源社区中的QWEN衍生模型数量已超过90,000。在2024年,仅此模型的全球下载量,即视觉理解QWEN-VL和QWEN2-VL,仅超过3200万。大型模型开源生态系统正在迅速发展。
在关注模型培训的时候,开源大型模型正在为封闭的大型模型带来持续的挑战。 GF Securities Research指出,根据R1的全球DeepSeek的全球下载量,API服务的价格远低于OpenAI的价格。海外市场普遍认为,培训和推理成本的下降可能会导致更快的创新和模型的普及。以及更多的推理需求。同时,计算能力的叙述将在一定程度上受到影响。开源源和封闭源模型之间的性能差距的缩小可能会对基本模型开发公司(封闭源)构成挑战,因为便宜的开源选择将吞噬市场需求。
随着更多开源模型的开发以及模型培训技术和数据质量改进的探索,行业中的更多参与者也将受到影响。 GF证券还提到,将来,大型模型成本和效率的提高可能会给AI应用公司带来收益,因为此类公司正在寻求基于LLM(大语言模型)和新模型开发产品的机会,因此提高效率将带来这些公司的资本回报率的反弹。此外,云制造商之间的竞争还在加速开源大型模型(例如DeepSeek)的生态服务的注意,并与对开源大型型号的需求竞争。
在“包容性”和大型模型技术的技术升级之间的多路比赛中,该行业期望有更多的Deepseek和S1型故事,并且会有更大的压力来快速迭代并赶上从业者。