在2月28日凌晨,北京时间,OpenAI发行了GPT-4.5。 “这是我们迄今为止最大,最好的聊天模式,这是扩大培训前和培训后的道路的迈出一步。” Openai介绍了该新型号适用于GPT Pro用户,并将为下周的用户和团队用户启动。
Openai首席执行官Sam Altman没有出现在发行地点,因为“在医院里照顾儿童”,但他在X上发布了一篇文章以创造动力,强调GPT-4.5是一种“高情绪智力”模型,更像是人类的,并且不会超越基准测试,并且是“不同类型的智力”。
从当前的行业反应来看,这一代模型的能力不大,但令人惊讶的是,GPT-4.5的价格为每百万个代币输入75美元,而GPT-4O的$ 2.5则增加了30倍。同时,Openai说GPT-4.5不能完全替代GPT-4O。
同时,DeepSeek刚刚宣布了26日在国内外的API高峰时间降低价格。 V3型号和R1型号的每百万个令牌的输入仅为0.035美元,比原始价格分别低50%和75%。 GPT-4.5是价格的2,000倍以上。 28日,DeepSeek还发布了“开源周”的最后一个代码库,以进行开源。这种“ cat鱼”激起了人工智能圈,正在重写AI竞争格局。
好消息和坏消息
GPT-4.5是Altman先前宣布的模型将在“几周内”发布。阿尔特曼(Altman)当时表示,除了发布GPT-4.5外,OpenAI还将在几个月内发布下一代Dock Model GPT-5。从这个角度来看,GPT-4.5可能是GPT-5启动之前的最后一个过渡模型。
与Openai发布新型号时,OpenAI通常强调各个领域的新模型的基准测试得分。这次,Openai说,学术基准并不总是反映现实世界的有用性,而Openai则强调了GPT-4.5的“情商”。
阿尔特曼(Altman)在他的帖子中提到了“好消息”和“坏消息”,前者是:“这是第一个使人们觉得自己正在与一个有思想的人交谈的模型。”他说,他很惊讶地发现他可以从人工智能那里得到很好的建议。
坏消息是:“这是一个巨大且昂贵的模型”,也无法同时推动它推向用户。 Altman说:“ GPU还不够”,下周将增加成千上万的GPU,然后将其提升为Plus。
Altman还特别提到,GPT-4.5不是推理模型,也不会在基准测试中获得压倒性的优势。这是一种“不同类型的智力”。 OpenAI首席研究官Mark Chen在播客中说,新模型的发布后不久,新模型未名字5,因为该模型的内部评估尚未达到全部的性能改进。
OpenAI说,早期测试表明,用户自然地与GPT-4.5进行互动,该模型具有更广泛的知识库,了解用户意图的更强能力以及更强大的“情绪智力”,这使GPT-4.5在写作,编程和解决实际问题等任务中有用。在培训过程中,OpenAI使用了一种扩展无监督学习和推理的方法。
Openai特别强调,GPT-4.5幻觉率降低了,与人类的合作更好。 Openai用简单但具有挑战性的知识问题测试了该模型,结果表明,GPT-4.5的幻觉率为37.1%,低于GPT-4O的61.8%,O1的44%和O3-Mini的80.3%。在与人类合作的能力方面,Openai说,GPT-4.5在三个方面的表现要比GPT-4O表现更好:每日查询,专业查询和创意智能。 GPT-4.5可以更好地理解人类微妙的提示或隐性期望。
为了证明GPT-4.5的功能,Openai举例说明了一个例子。问GPT-4.5“世界上的第一语言是什么”,GPT4.5的答案是“我们不知道确切的第一语言是什么,科学家认为我们可能永远不知道确切的答案,因为口语比书面记录要早得多”,并解释说没有单一语言,口语可能首先出现在非洲。
同样的问题提出了4T版本的GPT-4,答案是“确定人类使用的第一语言是极具挑战性的”,他解释说语言学家认为有许多语言的祖先,但该祖先不是第一语言。就直观的感觉而言,GPT-4.5的表达更接近人类,而GPT-4T的语言表达似乎有点机械。
此外,OpenAI还强调GPT-4.5和O1具有不同的长时间思维链推断模型。例如,GPT-4.5在做出反应之前不需要周到,因此它更一般和更聪明。但是,OpenAI还表明推理仍然是未来模型的核心能力,并且很快就会出现更强大的推理能力。
在附录中,OpenAI发布了GPT-4.5的基准测试评分。在GPQA,AIME'24,MMMLU和SWE-LANCER基准上,反映了科学,数学,多语言和编码,GPT-4.5分数分别为71.4%,36.7%,85.1%和32.6%,分别超过53.6%,一定程度超过53.6%,81.3%,GPT,GPT,GPT 3.3%。 O3米尼。
这一代人的能力提高并不明显。相比之下,就能力定价而言,GPT-4.5预览版的API呼叫价格为GPT-4.5预览版本为每百万个令牌输入(输入)和每百万美元150美元,分别是GPT-4O的30倍和15倍。
即使与自己的型号相比,这个价格太昂贵了,与DeepSeek相比,差距甚至更大。在最近的非浪费时间段中,V3型号和R1型号的每百万个令牌的输入为0.035美元(原始价格分别为0.07美元/0.14美元),而百万个代币的输出仅为0.55美元(原始价格为我们的价格为1.1/1.1/2.19美元,比2.19美元,比270次和44.5 timess和2,000 timess和2,000 timess和2,000 timess和2,000 timess和2,000次数和更高的时间。
Openai解释说,由于GPT-4.5是一种非常大的计算密集型型号,因此它比GPT-4O昂贵。同时,OpenAI提到GPT-4.5不能完全替换GPT-4O。考虑到需要在支持现有能力和开发未来模型之间取得平衡,OpenAI还在评估长期以来是否在API(接口)中使用该模型。
“ cat鱼”搅动了AI圆圈
除了争夺成本效益外,DeepSeek的另一个方向是坚持开源路线。
在发行Openai新产品的那天,DeepSeek将进行本周的第五代码开源-Fire -Flyer File System(3FS)。它是“所有DeepSeek数据访问的供电引擎”,这是一种高性能并行文件系统,专门针对AI数据访问进行了优化,并为AI工作负载提供了出色的存储基础架构。
根据DeepSeek的说法,3FS是为AI场景设计的高性能存储解决方案。它可以通过建筑创新和硬件适应来显着提高数据处理效率,并在目标场景和技术实施中与传统的云存储安装工具(例如S3F)具有显着差异。
除3FS外,DeepSeek还开设了MLA解码的Core FlashMLA,这使大型型号本周可以在GPU上更快地运行。用于MOE模型培训和推理的DEEPEP通信库可以支持MOE的FP8 GEMM代码库DeepGemm,一系列优化的并行策略和其他基础代码。在GitHub上,DeepSeek详细介绍了DeepSeek-V3和R1模型背后的优化技术,教导社区如何最大程度地利用GPU功能。
“这相当于以下事实:DeepSeek用来直接给汽车告诉您这辆车持续了900公里,但是现在DeepSeek正在深入挖掘,它如何开车到900公里?”陈(Chen Ran)是大型模型生态社区Opencsg(开放和超越)的创始人,此前曾为首次金融新闻提供了例子。
Chen Ran认为,DeepSeek发布的算法现在属于“脚手架”,而这些“脚手架”的开源将有助于随后的生态结构。社区和开发商可以根据DeepSeek的技术路线继续前进,最终,该行业可以基于此建立生态系统。
从长远来看,DeepSeek开源作用的重要性是有模型标准,工具标准和生态基石,生态学可以增长。一些从业者还认为,如果将大型模型与更基本的操作系统进行比较,OpenAI可能是一个相对封闭的iOS生态系统,而DeepSeek是开放的Android。
DeepSeek可能已经改写了AI圈的竞争格局和方向。奥特曼说,在2月O3-Mini发布的那天,OpenAI的开源政策正处于“历史错误”上,需要提出不同的开源战略。
在该国,始终坚持封闭的源路线的百度也已“移交”开源。去年,百度董事长罗宾·李(Robin Li)还说,大型模型的开源不是很有意义,并且封闭的源模型将继续领导能力。今年2月14日,百度宣布将在接下来的几个月内推出Wenxin Mockup 4.5系列,并将于6月30日正式开放。
从开源的影响来看,封闭的源模型(不如开源模型)面临令人尴尬的情况。由于开源模型可以由开发人员私下下载,微调甚至私人部署,因此使用封闭的源模型无需付费。
DeepSeek将计算能力用于极端,并以低成本进行模型培训和推理。它以前已导致芯片库存崩溃,给海外制造商带来了压力。资本支出与越来越大的数据中心合理有关吗?这已成为投资者对大公司的怀疑。
自1月以来,海外AI巨头最近发布了密集的新产品。 Google发布了GEMINI2.0系列,Xai发布了Musk提到的“地球上最精巧的人工智能”的Grok 3,Openai立即拿出GPT-4.5。
从世界著名的AI模型评估平台的最新聊天机器人竞技场列表来看,最新的Gemini2.0系列旗舰模型确实处于Grok 3的最前沿,但并没有扩大与DeepSeek-R1的巨大差距,而DeepSeek-R1排名第五。从大型模型竞技场的分数来看,差距在15到40分之间。
在2025年的达沃斯论坛上,AI Technology Startup Scare AI的创始人Alexandr Wang公开表示,DeepSeek的AI大型模型性能与美国最佳模型大致相当。他认为,在过去的十年中,美国可能在AI竞争中领先于中国,但是DeepSeek的AI模型发布可以“改变一切”。
在该国,DeepSeek还给大型制造商带来了很大的压力。在去年最受欢迎的C-End Big Model应用程序的国内制造商中,必须有Doubao和Kimi。但是,如果您最近查看中国苹果的免费版本应用程序的排名,您会发现第一名是DeepSeek。在配备了DeepSeek并慷慨投资之后,Tencent Yuanbao也排名第二。
人工智能行业内部人士说,DeepSeek的技术实力很强,其选择开源对一些封闭的源公司产生了影响,并且一些大型模型团队需要反思自己的实践。
DeepSeek-R1并不是大型模型竞争的尽头。据报道,DeepSeek正在寻求巩固其优势并尽快启动R2模型。该消息提到,DeepSeek最初计划在5月初发布R2模型,现在将加快这一速度。 DeepSeek尚未对此做出回应。
以前,DeepSeek在R1论文中提到,在下一版本中,R1的性能将得到改善,因为相关的RL(强化学习)培训数据仍然很少。随着RL数据的增加,该模型解决复杂的推理任务的能力继续稳定增长,并且某些复杂的行为能力自然会出现。
同时,计划将OpenAI的下一代推理模型O3集成到GPT-5中,并在几个月内发布。尽管OpenAI仍在继续推出过渡模型,例如GPT-4O和GPT-4.5,但自GPT-4推出以来已有将近两年的时间。发布GPT-4.5后,OpenAI仍然需要尽快证明它仍然是世界上最先进的大型模型公司。启动GPT-5的下一步将是重要的一步。
DeepSeek是否可以赢得下一场比赛仍然存在变量,但是可以肯定的是,它对行业竞争产生了更深远的影响。它在2025年初以压倒性的动力出现,破坏了AI圆圈的模式。竞争对手可能需要考虑如何赢得下一步行动。