马斯克发布地球上最聪明的AI Grok 3，性能超越GPT-4o，背后20万块GPU算力惊人

马斯克提到的“地球上最聪明的AI”即将到来。

在现场广播中，马斯克（Musk）发行了Grok 3，他参加了两名中国研究人员的释放，分别是XAI联合创始人Tony Wu和Jimmy BA。从基准测试来看，Grok 3确实非常强大，从资本投资的角度来看，其背后的200,000 GPU的计算能力集群也令人震惊。

Grok 3的发行包括一系列模型：Grok 3，Grok 3 Mini以及推理模式（Think），DeepSearch，Big Brain等更新。

＃01。 “最聪明的AI”的名称来自列表，如何测试它

在基准评估方面，Grok 3的性能要比其他模型（例如GPT-4O，Gemini-2 Pro，Claude3.5十四行诗，DeepSeek-V3等）都更好，在数学推理，STEM和科学领域的基准测试中。甚至较小的Grok 3 Mini版本也位于顶级。

Grok 3的早期版本在Chatbot Arena中也获得了高分，这是一个众包测试平台，不同的AI模型相互竞争，并且用户投票赞成最佳答案。 Grok-3是第一个突破1,400分模型的人，在所有类别中排名第一。

自2023年发行以来，Grok的Mmilu得分迅速提高，尤其是在2024年，在Grok 2中取得了显着突破，与GPT系列相比，迅速的追赶和改进。

“ Grok 3具有非常强大的推理能力，因此在我们到目前为止进行的测试中，Grok 3优于我们已经知道的任何已发布的产品，这是一个好兆头，”上周在迪拜举行的马斯克（Musk）通过视频通话说。在世界政府峰会上。

Grok 3还通过Grok 3推理和Grok 3 Mini推理引入了推理模式（思考），它可以像DeepSeek-R1这样的推理模型。 Grok 3的模型可以通过考虑所有可能的解决方案，自我批评，验证解决方案，回溯，第一原则的思考等来解决复杂的问题。但是，为防止蒸馏，Grok 3的推理过程的一部分是模糊的。

Grok 3推理超过了几个流行的基准O3-Mini-High中O3-Mini的最佳版本，其中包括新的数学基准AIME2025。

该团队使用Grok 3的Think模式展示了一个动画的3D图纸，该图案涉及从地球到火星发射，然后返回地球，显示下一个发射窗口的轨迹。

在演示中，Grok 3提供了使用Matplotlib并解释代码的Python脚本。该代码似乎以数字方式解决了开普勒的定律。代码运行后，Grok使用小绿色球体来动画两个行星，地球和火星，以代表航天器之间的旅程。

该演示是在现场生成的，因此没有验证该解决方案是完全正确的，但是马斯克戴着吊坠显示地球的火星转移轨道，表明它接近实际溶液。

提前经历了Grok 3的Andrej Karpathy说，Grok 3的Think Mode实施了DeepSeek-R1，Gemini 2.0 Flash Thinking和Claude未能实现的任务，但他说，O1-Pro等顶级OpenAI模型也可以做到。它。。

在Openai，双子座和困惑之后，Grok还推出了自己的深入搜索搜索。 XAI团队将深入的搜索定位为“下一代搜索引擎”，并且是Grok Agent的第一代。它不仅仅是一种简单的信息检索工具，旨在帮助计划，研究和回答每日问题。

从演示来看，Grok 3的深入搜索并没有太多的唯一性，并强调它与传统搜索引擎的关键字匹配模式不同。它可以深入了解用户查询的语义和意图，并且从多个信息来源获得内容，交叉验证以确保准确性，比传统搜索引擎更可调，从而允许用户指定来源。

XAI团队特别提到，深度搜索过程对用户是透明的，并允许用户了解AI的“思考”过程。

Andrej Karpathy认为，Grok 3的DeepSearch大致相当于困惑的深入研究，但尚未达到OpenAI最近发布的深入研究的水平。

＃02，“大脑”模式

有关更复杂的查询，请使用“大脑”模式通过更多的计算来推理。 XAI将这些推论模型描述为最适合数学，科学和编程问题的推理模型，看起来像“全血版本”。

Xai团队以大脑模式展示了Grok 3，该模式创建了一个新的游戏，将俄罗斯方块和迷恋（宝石迷宫）结合在一起。 XAI团队解释说，由于在直播期间即兴演奏，Grok可能会犯一些小的编码错误，从而导致游戏并未完全按预期运行。。在实时测试中，生成的游戏可以正常运行，但是游戏的颜色显示有些问题。尚不清楚俄罗斯方块清除整行的机制是否已实施。

XAI团队还确认了其在直播期间推出AI游戏工作室的计划。马斯克还在前一天在X上发布了一条相关推文。

＃03。如果您有钱，您可能会故意，但是如果您想成为“最强大”，还有很多事情要做

Grok 3基于XAI的巨像集群，第一阶段的100,000张卡仅花了122天的时间，再增加了92天的时间，可以扩展到200,000件，并使用约200,000 GPU训练Grok 3，该Grok 3于1月初完成。预训练。 Musk以前在X平台上发布了Grok 3的开发使用“计算资源的10倍，其计算资源是其前任Grok 2，并且培训数据集已扩展，据称包括法院案件的文件。在实时广播期间，他说， Grok 3的计算资源大约是Grok 2的15倍。

马斯克还透露，Xai正在建造一个新的AI群集，该集群的功率将是当前集群的五倍。

此外，关于语音模式，团队没有给出特定的发布日期，但马斯克说：“它将在大约一周内发布。”

在特定的细节中，语音将直接通过类似于Grok的模型生成，该模型可以理解所说的内容并直接生成音频。这种方法使AI可以记住细节并更自然地继续对话。语音模式功能将在应用程序和API中可用。

XAI计划在未来几周内推出Grok-3的API。该API将包括Grok-3的推理模型和深度搜索功能。 XAI团队非常期待企业级应用程序方案，他们认为Grok-3的强大功能和深入搜索的功能将为企业用户带来巨大的价值。

值得注意的是，XAI最近发起了一项活动，只要它同意共享数据，最低限度的充电将获得150美元的API限额。显然，Xai并不关心放弃这种小羊毛，但它更多地关注以这种方式获取用户和数据。

关于开源计划，马斯克表示，他将继续他的先前战略，并将Grok 3成熟并稳定时开源Grok 2（可能会在几个月内实施）。

当前，用户可以通过X和Grok的网站和应用程序体验它，并且并非所有Grok 3型号和相关功能都在线（有些是在Beta阶段）。 Grok 3将首先推出X平台上的高级+订户，此外，除了一项名为Super Grok的独立订阅服务外，还将为Grok用户提供最先进的功能和最早的访问权限，每月30美元或每年300美元，SuperGrok Unlocks诸如DeepSearch中更多查询时间之类的功能，还提供了无限数量的图像生成服务。

Grok 3的发布标志着Xai在AI领域的激烈竞争，不仅包括OpenAI和Google，而且还面临着新兴中国公司的压力。例如，DeepSeek允许世界各地的AI公司调整其策略，并使深思熟虑的模型成为“标准”，这也促使Openai最近免费开放其推论模型，并且还开始发出开源信号。

对于马斯克来说，Openai可能是Xai的最大敌人。马斯克（Musk）于2023年成立了XAI，旨在成为Openai的替代者，并公开批评Openai计划将自己重组为营利性业务。

马斯克还针对Openai提起了两起诉讼，指控它偏离了其原始创始原则，并提议以974亿美元的价格收购OpenAI的非营利部门，但该提议上周遭到OpenAI董事会的拒绝。 Ultraman Sam说，收购要约是“减慢我们的步伐”的策略。尽管马斯克一直参与Openai的成立，但自2018年离开董事会以来，他一直对公司批评。

两家公司都在筹集惊人的融资，其估值继续飙升。根据彭博（Bloomberg）上周的说法，马斯克（Musk）的XAI正在以约100亿美元的价格为谈判提供融资。融资完成后，公司的估值将达到750亿美元，而XAI的最后估值为510亿美元。同时，Openai正在谈判筹集高达400亿美元的资金，预计其估值将增加到3000亿美元。

资本带来的“丰富和强大”的特征也很明显。 Softbank，OpenAI，Oracle和Abu Bass支持的MGX在1月份共同宣布，它将在美国投资1000亿美元，并最终将投资5000亿美元来建立数据中心和其他人工智能基础设施。同时，Dell Technologies即将完成价值超过50亿美元的交易，以向XAI提供针对人工智能优化的服务器。

从当前情况来看，Openai确实是XAI的主要竞争对手。两者在技术，市场定位和融资策略方面存在直接的竞争关系。 Openai以其成熟的产品线和强大的市场份额而处于最前沿。尽管Grok 3的发布在某些指标中具有优势，但从整体演示开始，并没有太多的创新，而更多的是填补和赶上业内领先的公司。真正支持Grok 3的真正支持似乎更多的是200,000 GPU和持续的资本支持，而不是真正的技术突破。此版本不是马斯克所说的：“也许这是AI超越Grok的最后机会。”

Grok 3发行的开头，马斯克重新引入了Xai和Grok的使命：了解宇宙的本质，找出正在发生的事情，找出外星人的痕迹，探索生活的含义，了解宇宙的起源，并确定其结局。 Xai是由对真理的追求驱动的，并成为寻求真理的最终人工智能。

但是，无论是要意识到这些宏伟的愿景还是面对更现实的竞争，仅依靠“金钱能力”和名单上的“最强”标题显然还不够。要成为真正的“地球上的智能AI”，Musk及其Xai还有很长的路要走。