马斯克提到的“地球上最聪明的AI”即将到来。
在现场广播中,马斯克(Musk)发行了Grok 3,他参加了两名中国研究人员的释放,分别是XAI联合创始人Tony Wu和Jimmy BA。从基准测试来看,Grok 3确实非常强大,从资本投资的角度来看,其背后的200,000 GPU的计算能力集群也令人震惊。
Grok 3的发行包括一系列模型:Grok 3,Grok 3 Mini以及推理模式(Think),DeepSearch,Big Brain等更新。
#01。 “最聪明的AI”的名称来自列表,如何测试它
在基准评估方面,Grok 3的性能要比其他模型(例如GPT-4O,Gemini-2 Pro,Claude3.5十四行诗,DeepSeek-V3等)都更好,在数学推理,STEM和科学领域的基准测试中。甚至较小的Grok 3 Mini版本也位于顶级。
Grok 3的早期版本在Chatbot Arena中也获得了高分,这是一个众包测试平台,不同的AI模型相互竞争,并且用户投票赞成最佳答案。 Grok-3是第一个突破1,400分模型的人,在所有类别中排名第一。
自2023年发行以来,Grok的Mmilu得分迅速提高,尤其是在2024年,在Grok 2中取得了显着突破,与GPT系列相比,迅速的追赶和改进。
“ Grok 3具有非常强大的推理能力,因此在我们到目前为止进行的测试中,Grok 3优于我们已经知道的任何已发布的产品,这是一个好兆头,”上周在迪拜举行的马斯克(Musk)通过视频通话说。在世界政府峰会上。
Grok 3还通过Grok 3推理和Grok 3 Mini推理引入了推理模式(思考),它可以像DeepSeek-R1这样的推理模型。 Grok 3的模型可以通过考虑所有可能的解决方案,自我批评,验证解决方案,回溯,第一原则的思考等来解决复杂的问题。但是,为防止蒸馏,Grok 3的推理过程的一部分是模糊的。
Grok 3推理超过了几个流行的基准O3-Mini-High中O3-Mini的最佳版本,其中包括新的数学基准AIME2025。
该团队使用Grok 3的Think模式展示了一个动画的3D图纸,该图案涉及从地球到火星发射,然后返回地球,显示下一个发射窗口的轨迹。
在演示中,Grok 3提供了使用Matplotlib并解释代码的Python脚本。该代码似乎以数字方式解决了开普勒的定律。代码运行后,Grok使用小绿色球体来动画两个行星,地球和火星,以代表航天器之间的旅程。
该演示是在现场生成的,因此没有验证该解决方案是完全正确的,但是马斯克戴着吊坠显示地球的火星转移轨道,表明它接近实际溶液。
提前经历了Grok 3的Andrej Karpathy说,Grok 3的Think Mode实施了DeepSeek-R1,Gemini 2.0 Flash Thinking和Claude未能实现的任务,但他说,O1-Pro等顶级OpenAI模型也可以做到。它。 。
在Openai,双子座和困惑之后,Grok还推出了自己的深入搜索搜索。 XAI团队将深入的搜索定位为“下一代搜索引擎”,并且是Grok Agent的第一代。它不仅仅是一种简单的信息检索工具,旨在帮助计划,研究和回答每日问题。
从演示来看,Grok 3的深入搜索并没有太多的唯一性,并强调它与传统搜索引擎的关键字匹配模式不同。它可以深入了解用户查询的语义和意图,并且从多个信息来源获得内容,交叉验证以确保准确性,比传统搜索引擎更可调,从而允许用户指定来源。
XAI团队特别提到,深度搜索过程对用户是透明的,并允许用户了解AI的“思考”过程。
Andrej Karpathy认为,Grok 3的DeepSearch大致相当于困惑的深入研究,但尚未达到OpenAI最近发布的深入研究的水平。
#02,“大脑”模式
有关更复杂的查询,请使用“大脑”模式通过更多的计算来推理。 XAI将这些推论模型描述为最适合数学,科学和编程问题的推理模型,看起来像“全血版本”。
Xai团队以大脑模式展示了Grok 3,该模式创建了一个新的游戏,将俄罗斯方块和迷恋(宝石迷宫)结合在一起。 XAI团队解释说,由于在直播期间即兴演奏,Grok可能会犯一些小的编码错误,从而导致游戏并未完全按预期运行。 。在实时测试中,生成的游戏可以正常运行,但是游戏的颜色显示有些问题。尚不清楚俄罗斯方块清除整行的机制是否已实施。
XAI团队还确认了其在直播期间推出AI游戏工作室的计划。马斯克还在前一天在X上发布了一条相关推文。
#03。如果您有钱,您可能会故意,但是如果您想成为“最强大”,还有很多事情要做
Grok 3基于XAI的巨像集群,第一阶段的100,000张卡仅花了122天的时间,再增加了92天的时间,可以扩展到200,000件,并使用约200,000 GPU训练Grok 3,该Grok 3于1月初完成。预训练。 Musk以前在X平台上发布了Grok 3的开发使用“计算资源的10倍,其计算资源是其前任Grok 2,并且培训数据集已扩展,据称包括法院案件的文件。在实时广播期间,他说, Grok 3的计算资源大约是Grok 2的15倍。
马斯克还透露,Xai正在建造一个新的AI群集,该集群的功率将是当前集群的五倍。
此外,关于语音模式,团队没有给出特定的发布日期,但马斯克说:“它将在大约一周内发布。”
在特定的细节中,语音将直接通过类似于Grok的模型生成,该模型可以理解所说的内容并直接生成音频。这种方法使AI可以记住细节并更自然地继续对话。语音模式功能将在应用程序和API中可用。
XAI计划在未来几周内推出Grok-3的API。该API将包括Grok-3的推理模型和深度搜索功能。 XAI团队非常期待企业级应用程序方案,他们认为Grok-3的强大功能和深入搜索的功能将为企业用户带来巨大的价值。
值得注意的是,XAI最近发起了一项活动,只要它同意共享数据,最低限度的充电将获得150美元的API限额。显然,Xai并不关心放弃这种小羊毛,但它更多地关注以这种方式获取用户和数据。
关于开源计划,马斯克表示,他将继续他的先前战略,并将Grok 3成熟并稳定时开源Grok 2(可能会在几个月内实施)。
当前,用户可以通过X和Grok的网站和应用程序体验它,并且并非所有Grok 3型号和相关功能都在线(有些是在Beta阶段)。 Grok 3将首先推出X平台上的高级+订户,此外,除了一项名为Super Grok的独立订阅服务外,还将为Grok用户提供最先进的功能和最早的访问权限,每月30美元或每年300美元,SuperGrok Unlocks诸如DeepSearch中更多查询时间之类的功能,还提供了无限数量的图像生成服务。
Grok 3的发布标志着Xai在AI领域的激烈竞争,不仅包括OpenAI和Google,而且还面临着新兴中国公司的压力。例如,DeepSeek允许世界各地的AI公司调整其策略,并使深思熟虑的模型成为“标准”,这也促使Openai最近免费开放其推论模型,并且还开始发出开源信号。
对于马斯克来说,Openai可能是Xai的最大敌人。马斯克(Musk)于2023年成立了XAI,旨在成为Openai的替代者,并公开批评Openai计划将自己重组为营利性业务。
马斯克还针对Openai提起了两起诉讼,指控它偏离了其原始创始原则,并提议以974亿美元的价格收购OpenAI的非营利部门,但该提议上周遭到OpenAI董事会的拒绝。 Ultraman Sam说,收购要约是“减慢我们的步伐”的策略。尽管马斯克一直参与Openai的成立,但自2018年离开董事会以来,他一直对公司批评。
两家公司都在筹集惊人的融资,其估值继续飙升。根据彭博(Bloomberg)上周的说法,马斯克(Musk)的XAI正在以约100亿美元的价格为谈判提供融资。融资完成后,公司的估值将达到750亿美元,而XAI的最后估值为510亿美元。同时,Openai正在谈判筹集高达400亿美元的资金,预计其估值将增加到3000亿美元。
资本带来的“丰富和强大”的特征也很明显。 Softbank,OpenAI,Oracle和Abu Bass支持的MGX在1月份共同宣布,它将在美国投资1000亿美元,并最终将投资5000亿美元来建立数据中心和其他人工智能基础设施。同时,Dell Technologies即将完成价值超过50亿美元的交易,以向XAI提供针对人工智能优化的服务器。
从当前情况来看,Openai确实是XAI的主要竞争对手。两者在技术,市场定位和融资策略方面存在直接的竞争关系。 Openai以其成熟的产品线和强大的市场份额而处于最前沿。尽管Grok 3的发布在某些指标中具有优势,但从整体演示开始,并没有太多的创新,而更多的是填补和赶上业内领先的公司。真正支持Grok 3的真正支持似乎更多的是200,000 GPU和持续的资本支持,而不是真正的技术突破。此版本不是马斯克所说的:“也许这是AI超越Grok的最后机会。”
Grok 3发行的开头,马斯克重新引入了Xai和Grok的使命:了解宇宙的本质,找出正在发生的事情,找出外星人的痕迹,探索生活的含义,了解宇宙的起源,并确定其结局。 Xai是由对真理的追求驱动的,并成为寻求真理的最终人工智能。
但是,无论是要意识到这些宏伟的愿景还是面对更现实的竞争,仅依靠“金钱能力”和名单上的“最强”标题显然还不够。要成为真正的“地球上的智能AI”,Musk及其Xai还有很长的路要走。