马斯克 20 万块 GPU 炼出 Grok-3，暴击 DeepSeek R1 数学屠榜！疯狂复仇 OpenAI - Foresight News

马斯克 20 万块 GPU 炼出 Grok-3，暴击 DeepSeek R1 数学屠榜！疯狂复仇 OpenAI

2025-02-18 17:53

2025-02-18 17:53

来源链接

订阅此专栏

收藏此文章

TTPRO1562091-3-sr_x2.0.png 图片来源：由无界 AI 生成

文章来源：新智元

人类史上首个在 20 万块 GPU 上训出的模型终于问世！

刚刚，马斯克带队三位 xAI 成员在线开启直播，官宣 Grok-3 全家桶——

Grok-3（Beta）、Grok-3 mini

首个推理模型 Grok-3 Reasoning（Beta）、Grok-3 mini Reasoning：击败 o3-mini/DeepSeek-R1，解锁推理时计算

首个 AI 智能体「DeepSearch」：联网深入搜索

一股 OpenAI 发布会的味道扑面而来

据介绍，三代 Grok 的训练计算量竟是 Grok-2 的 10 倍，那么实际表现又如何？

世界最大超算集群 Colossus 已有 20 万块 GPU：10 万块 GPU 同步训练（第一阶段用时 122 天搭建）；20 万 GPU（第二阶段用时 92 天）

在多项基准测试中，Grok-3 在数学（AIME 2024）、科学问答（GPQA）、编码（LCB）上刷新 SOTA，大幅超越 DeepSeek-V3、Gemini-2 Pro、GPT-4o。

Grok-3 mini 的性能基本上领先或媲美其他闭源 / 开源模型。

在著名大模型 LMSYS Arena 排行榜中，Grok-3（chocolate 终于揭秘）刷榜，Elo 评分超 1400 位列最高，没有任何一个模型能与之相比。

Grok-3 的数学能力十分惊人，几乎能完成大部分美国数学专业能力测试的题目。

更令人惊喜的是，Grok-3 此次还带来了推理模型——Grok-3 Reasoning，在回答问题时会展示出思维过程。

进入聊天入口，直接选择「Think」模式，即可开启魔法。

此外，还有「Big Brain」模式、智能体「深度搜索」（Deep Search）模式同步上线。

几天前，马斯克曾在预告中放出豪言，「这是地球上最聪明的 AI」，此言不虚。

总爱搞点事情的奥特曼，一会儿说 GPT-4.5 让自己深刻感受到 AGI，一会儿又要开源模型全网投票。

甚至有网友提议，不如咱就 7:30pm 发布 GPT-4.5 吧！奥特曼：这不太好吧。

奥特曼的这番言论，摆明了是要扰乱军心。据传言，Grok-3 发布这一历史性时刻，OpenAI 全员观战。

OpenAI 前脚发布的 o3-mini 刚刚击败了 R1，如今又被 Grok-3 追回。不知今晚，GPT-4.5 会不会降临？

暴击 o3-mini、DeepSeek-R1，解锁测试时计算

有人说，Grok-3 是终极的 Scaling Law 测试，如今看来，事实如此。

从 2023 年 Grok-1 首次面世，到 Grok-1.5，再到 Grok-2 逐步迭代，模型推理性能飞速飙升的同时，还吞噬了大量的算力。

Grok-3 家族，更是将「测试时计算」发挥到了极致。10 万块 H100 超算，训出的野兽几乎无「模」能敌。

它成为首个 Elo 评分打破 1400 的模型，在所有分类测试中位列第一。

在多项基准测试中，推理模型 Grok-3 Reasoning 和 Grok-3 mini Reasoning 在数学、科学、编码上，性能均大幅超越 o3-mini（high）、o1、DeepSeek-R1，还有 Gemi-2 Flash Thinking。

可以说，迄今为止最强「推理模型」，全部败给了 Grok-3 Reasoning，可以说，它是名副其实的「世界上最聪明的模型」。

团队表示，允许 Grok 去进行更长时间的思考和推理。

在最新的数学基准 AIME 2025 上，Grok-3 两款新模型性能同样刷新 SOTA，分别拿下了 93 和 90 分。

顺便提一句，Grok-3 思维链和 o3-mini 套路一样——防止被偷家 xAI 掩盖了部分思考过程。

接下来，让我们一睹 Grok-3 强大的推理能力。

高级推理 Think

首先是一个太空飞船任务，生成一个地球发射、火星着陆以及下一次发射窗口返回地球的动画 3D 代码。

注意，这个问题的难点在于，过程中涉及到了大量数学和物理模型的计算。在此之前，团队从未试过让大模型去计算航天的发射窗口。

在「Think」模式下，可以看到 Grok 的思维痕迹，甚至可以进去看看 Grok 在解决问题时到底在想什么。

Grok 3 很快生成了完整可运行的 3D 动画。在代码中，Grok-3 数值上求解了开普勒定律。

下图是 3D 动画的画面，直观展示了任务过程中，太阳、地球、火星和飞船之间的位置关系。

甚至，宇航员可以据此直接算出出舱时间和距离。这上面有地球 - 火星往返的转移路径，这种穿越每 26 个月发生一次。接下来，我们现在正处于一个过渡窗口期。

研究者经过检查后激动表示：Grok-3 给的答案完全正确！

最后马斯克揭开谜底：其实，这就是 SpaceX 真正的探索轨道。他充满信心地表示，两年内，地球和火星就会被连接在一起。

很快有网友评论，「可以确认，Grok-3 强得离谱！」

与之相对比的是，o1、o1-pro、o3-mini（high）全都在这个问题上栽了：生成一段代码，实现从地球发射、登陆火星，然后在下一个发射窗口返回地球的 3D 动画。

「它们生成的代码能跑是能跑，但很不幸，飞船根本就没靠近过火星，更别说回来了。」该网友表示。

然后团队又让 Grok-3 制作一个游戏。要求是结合俄罗斯方块和宝石迷阵两个游戏的混合体。

「显然，如果你让 AI 去创作一款像俄罗斯方块这样的游戏，互联网上有许多例子，或者类似宝石迷阵的游戏。它可以复制它们。」演示人员表示。

所以，现场他们让 Grok-3 制作了一个结合了俄罗斯方块和宝石迷阵两个游戏的混合体，这次他们使用了「Big Brain」模式，可以使用更多计算能力的一种模式。

Grok-3 随后开始使用 python 编写代码，可以看出它调用了 pygame、random 和 time 这 3 个库来完成游戏的编写。

代码完成后，Grok-3 生成的俄罗斯方块和宝石迷阵两个游戏的混合体成功运行，虽然游戏逻辑有些随意，但是界面挺美观。

「我们在 x.ai 准备好成立一个游戏工作室了吗？」演示人员激动地说道，「是的，所以我们正在 x.ai 启动一个人工智能游戏工作室。」

在此过程中，研究者们讨论道：最好的 AI 模型，必须像人类一样思考，会去想所有可能的对策和解法，会自我批评、回溯，还会从第一性原理去思考。

甚至，Grok 能够了解自己的逻辑和推理过程中的一些失误所在，更正自己的错误，将一些数学推理过程概念化，而现实生活中，也正是这些问题的延伸。

研究者表示，真正令人兴奋的就是，可以用 Grok-3 去完成现实世界中的任务，比如打造一辆特斯拉，或者去发射火箭。

这正是 Grok 团队目前正在思考的问题。

深度搜索 DeepSearch

没想到，这一次马斯克还带来了 Grok-3 首个智能体——DeepSearch。

DeepSearch 是 Grok 的第一代智能体，能够在互联网上进行更深入的搜索。

它允许用户对互联网和 X 平台进行全面搜索。该模式分析大量信息，并通过快速高效的搜索过程提供详细、合理的答案。

此外，它的信息检索过程对用户更加透明。你可以直接告诉它只使用来自 X 的内容，它会尽量遵守这个要求，因此可控性更强，也更智能。

我们可以问 DeepSearch 智能体：下一次星舰发射是什么时候？

可以看到，在左边，它展示出了搜索和推理的过程，而在右边，则展示出了深度思考过程，以及模型正在浏览什么样的网址和网页。

最终，智能体给出了答案：25 年 2 月 24 日。

游戏玩家还可以提问：在 Poe 2 中最硬核的流派是什么？

除了给出答案——炼狱师召唤流之外，智能体还在回答中给出了如何获得更多武器的攻略。

因此，比起现在普通的搜索引擎，使用 Grok 智能体能节约更多的时间。

Grok 团队表示，从此，或许所有实习生都要失业了，我们需要的只是向大模型下任务。每个月花 40 美元，就能带来数十亿美元的回报。

马斯克：一周内所有功能上线，几个月内全面开源

所以，Grok-3 到底什么时候开放？

对此，马斯克表示，订阅 Premium Plus 的 X 用户现在已经可以用上了。

而 Grok 忠实粉丝则可以单独订阅 SuperGrok，从而解锁深度搜索和思考模型等先进功能，并成为早体验新特性的那一波。

全新网址是 grok.com，另外 App Store 里也可以下载了。

马斯克强调，最新版本一定是网页版，App Store 里是比较落后的。

目前，Grok-3 每天都在更新推理功能，马斯克放话说：一周内，Grok 的所有功能都将上线！

传送门：https://grok.com/

Q&A

什么时候出语音助手版？

会花一周时间。

Grok-3 API 什么时候上线？

几周内。

Grok 3 语音模式是原生的，还是文本转语音？

它是 Grok-3 的一个变体，能理解你说的话，并且直接生成音频。

Grok-3 能否将音频转录成文本？

没问题。这个声音模型不仅仅是语音转文字那么简单，它还具备对话记忆功能，能记得和你之前的交互记录。

马斯克表示，几个月之后会对 Grok-3 进行全面的开源。

Grok-3 最令人兴奋的部分是什么？

训练模型，以及百分百的逻辑推理，都是最难的部分，就像你需要随时随地设计宇宙的最新进展。

如何设计这样一个史上最难推理模型？

研究者表示，我们花了 24 个月去打磨这个模型，确定它在逻辑推理上有了最新进展，同时他们使用了一个废弃工厂，数据中心之所以落地在孟菲斯，是因为既需要算力，又需要能源功能，需要 1/4 吉瓦来向 GPU 供能，同时还需要冷却设施。

此前，从没有人真正在数据中心实现过液冷，但 Grok 团队做到了！

为了进一步对数据中心供能，我们使用了特斯拉的 Megapacks，并且重新计算了建筑物的能源供给。最终证明：团队的计算是有效的！

而且，过程中还需要把不同计算机联结在一起，共享信息。在此过程中，团队会看到模型之间供给不平衡的情况。

一方面，是对建筑供能和节能的重新设计；另一方面，团队设计了大模型，设计了全新的算法过程。

研究者表示，不知道其他大模型是否也像 Grok-3 一样，需要如此多的人力和物力。

当然，团队也希望在接下来，减少模型的能耗，把数据中心的耗能从 1/4 吉瓦降低下来，或许需要重新设计，让它成为世界上效率最高的数据中心。

AI 大牛高度好评：Grok-3 成就惊人

提前拿到内测资格后，AI 大佬 Karpathy 展开了一番评测，分享的感悟比一篇文章还要长。

总结来说，Grok-3 推理模型最领先，解决了卡坦岛（Settler's of Catan）难题。上传 GPT-2 论文后，Grok-3 完成了简单的查找问题。

它没有解决黎曼假设难题，仅是说「这是一个伟大未解决的难题」。

在体验「深度搜索」功能时，结合了思考 + 深度研究的能力，能对需要研究、查找的问题提供高质量回答，并给出参考链接。

最后，Karpathy 给出的评价是，「Grok-3 + Thinking 表现似乎达到了与 o1 Pro（每月 200 美元）相当的水平，并且略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking」。

大约一年前，xAI 团队从 0 开始的，这么短时间内就达到了顶尖水平，这是前所未有的惊人成就。

Grok-3 同样通过了物理模拟测试，效果堪比 o3-mini。

xAI 联创同样表示，「我们改进模型和系统的速度，比任何单一的里程碑都更重要。Grok-3 证明了我们能够在 19 个月内从零起步达到了最先进的水平」。

此外，xAI 工程师还曝出了即将上线的「高级语音模式」。

Grok-3 横空出世，再次把 xAI 带回到世界第一梯队。

用马斯克的一句话做个总结——要判断哪家公司会在技术竞争中胜出，你只需要关注其创新速度的一阶导数和二阶导数。

xAI 团队胜利的这一刻，值得被记录。

奥特曼的 AGI 也准备就绪。

参考资料：

https://x.com/i/broadcasts/1gqGvjeBljOGB

中国 AIGC 产业应用峰会回顾

2024 年 1 月 5 日，【智求共赢・中国 AIGC 产业应用峰会暨无界 AI 生态合作伙伴大会】在杭州未来科技城会议中心举行。

大会汇集行业资深专家及领军企业，共同聚焦 AIGC 领域，围绕当下热点话题进行深度延展，探讨行业激烈竞争下的运营新思路、发展新模式！点击文章，回顾精彩内容~

AI 新智界园区开放合作啦！

来源链接

【免责声明】市场有风险，投资需谨慎。本文不构成投资建议，用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

数据请求中

数据请求中

在 App 打开