春节前,国产大型车型迎来了一波密集更新潮。
1月20日上午,MiniMax海螺上线语音功能,当天下午,字节豆宝上线实时语音模式。 1月20日晚,DeepSeek发布了DeepSeek-R1模型。一个多小时后,月之暗面Kimi推出了k1.5多模态思维模型。两家公司均表示,新模型的性能对标了OpenAI o1正式版。
上述更新既包括赶上OpenAI o1系列推理模型,又包括赶上OpenAI的实时语音功能。 1月21日,腾讯开源混元3D大模型生成2.0,为3D生成大模型指明了另一个方向,瞄准游戏、具身智能等领域的大模型应用。同日,一向强调应用的百度推出了“免费画布”应用的公测版。百度副总裁王颖透露,百度文库AI功能的MAU(月活跃用户)已超过9000万。更新的同时,一些大型模型公司透露了后续迭代的方向。这些大型模型公司年初释放的信号,或许预示着今年大型模型领域的竞争方向。
缩小与 OpenAI 的差距
国内某大型模型厂商的研发人员在看完Kimi k1.5和DeepSeek-R1的报道后向第一财经记者表示,这两个模型更新与OpenAI o1的长思维链推理方向大致一致。系列,但技术解决方案可能并不完全相同,毕竟OpenAI并没有详细透露o1的做法。这类模型的迭代重点在于技术指标的提升,而不是功能的开发。
目前,并不是所有国内领先机型厂商都赶上了o1的能力,但最新更新的两款机型在部分能力上已经赶上了o1。月之暗面表示,在长-CoT(长链思维)模式下,Kimi k1.5的数学、编码、多模态推理能力达到了正式版的Long-CoT SOTA(最好且最优秀的)。某一领域最先进的性能)模型o1 这是除OpenAI之外的其他公司首次实现o1正式版的多模态推理性能。 Kimi继去年11月发布k0-math数学模型、12月发布k1视觉思维模型后,再次更新了k系列模型。
DeepSeek表示,DeepSeek-R1在数学、编码、自然语言推理等任务上的性能与o1正式版相当,并且该模型的API服务定价为每百万代币输入(缓存命中)1元,每百万枚代币产出1元。 16元,远低于o1的55元和438元。
与闭源的OpenAI o1相比,这两家大型模型公司对于新模型的态度相对开放。 Kimi首次披露了模型训练技术报告。 DeepSeek-R1在推出API接口的同时,也开源了模型权重。从发布时间来看,国内大型模型公司与OpenAI的技术差距或将缩短至1个月以上。当地时间2024年12月18日,OpenAI推出o1模型正式版,取代去年9月发布的预览版o1-preview。目前距离o1正式版发布仅有一个多月的时间。
有学者认为,新推出的车型代表了行业的先进水平。加州大学伯克利分校教授 Alex Dimakis 表示,与他交流过的大多数 AI 研究人员都对 DeepSeek-R1 的表现感到有些震惊。 DeepSeek 似乎是 OpenAI 最初使命的“最佳候选人”,其他公司需要迎头赶上。 “我们生活在一个非美国公司正在保持 OpenAI 初衷的时代,那就是做真正开放并为每个人赋权的前沿研究。DeepSeek-R1 可能是第一个展示 RL(强化学习) )飞轮 OSS(开源软件)项目可以发挥作用并带来持续增长。”NVIDIA 高级研究科学家 Jim Fan 说道。
在发布新模型的同时,月之暗面透露了下一步的迭代方向,表示Kimi将继续升级k系列强化学习模型,带来更多的模态、更多领域的能力、更强的通用能力。
语音方面,OpenAI于去年5月发布了实时语音交互的4o模型,并于9月向ChatGPT订阅者开放了高级语音模式。 MiniMax和字节豆宝的语音功能是在OpenAI开启高级语音模式近4个月后推出的。
寻找新的方向
1月21日下午,腾讯混元开源大型3D生成模型2.0版本,支持文森特、图生的3D能力。混源还推出了3D内容AI创作平台混源3D人工智能创作引擎。
与OpenAI等大型模型厂商在大语言模型领域推动长思链式推理和多模态交互的方向不同,3D生成大模型针对的是3D资产生成,面向游戏制作、电子商务等领域。商业广告、工业制造和体现智能。在其他领域,腾讯等公司也在探索这个方向。据介绍,混元3D生成能力已应用于腾讯内部游戏业务,可将3D资产制作的时间和成本从5至10天缩短至几分钟。也用于腾讯地图的3D导航车标定制。
3D生成的大型模型的应用未来可能会得到扩展。此前,记者了解到,游戏美术领域AI生成2D资产的技术相对成熟,3D技术还有待进一步成熟。对于AI在游戏领域的实际运用,腾讯游戏正在进行的研究项目制作人王志刚告诉记者,他负责的项目正在提高AI在制作管线中的渗透率。使用AI辅助后,制作一个游戏图标的时间从1两天减少到几十秒,成本从数百元减少到几毛钱。目前,2D过程中利用AI生成原画图像,3D大模型生成技术也在提高3D资产生产的效率。目前,3D大模型生成技术可以应用于休闲游戏,但他相信,随着技术的优化,未来在更真实的游戏项目中使用也是可行的。
腾讯混元3D负责人郭春超表示,目前已有不少具身智能机器人团队与混元接洽,希望获得在机器人仿真环境下生成3D资产的接口。一些自动驾驶公司也希望利用3D生成大型模型来生成数据。
从技术改进的空间来看,郭春超表示,业界有关于大语言模型的Scaling Law是否无效的讨论,但3D领域距离Scaling Law触及天花板还很远。原因是3D领域的数据量并不大。可能只是千万级别的,而文本字段的数据是T(千亿)级别的,图片是百亿级别的。
然而,大型模型的3D生成领域也存在挑战。郭春超告诉记者,最大的技术挑战在于数据量不足。从成熟度来看,3D和视频大模型尚未达到足够的拐点,仍处于比赛的前半程。
“对于3D大模型技术发展的最终形式,业界分歧很大,到底什么是世界模型,并没有明确的定义。目前主要流派包括Sora纯视频一代、Google Genie 2互动视频一代、World Lab世界模型等。每种类型都有自己的优点和缺点。”郭春超表示,团队一直在思考3D生成大模型的下一步迭代方向。方向包括从生成3D角色或物体延伸到生成3D场景,但至于一年后,会采取什么形式,目前还很难预测。