图片来源:由无界 AI 生成
马斯克口中的“地球上最聪明的 AI”Grok 3 来了。
在一场上百万人观看的直播中,马斯克发布了 Grok 3,和他一起参与发布的还有两位华裔研究员,分别是 xAI 联合创始人 Tony Wu、Jimmy Ba。从基准测试来看,Grok 3 确实强得惊人,而从资本投入看,背后那 20 万块 GPU 的算力集群也令人咋舌。
Grok 3 的发布包括一系列的模型:Grok 3, Grok 3 mini,以及推理模式(Think)、DeepSearch、Big Brain 等更新。
“最聪明 AI”之名来自榜单,实测如何
基准评测方面,Grok 3 在数学推理、STEM 与科学领域的基准测试中表现优于 GPT-4o、Gemini-2 Pro、Claude3.5 Sonnet、DeepSeek-V3 等其他模型。即便是小版本的 Grok 3 Mini,也处于顶尖水平。
Grok 3 的早期版本在大模型竞技场 Chatbot Arena 中也取得了高分,这是一个众包测试平台,不同 AI 模型相互竞争,用户投票选出最佳答案,Grok-3 是首个突破 1400 分的模型,在所有类别中排名第一。
Grok 自 2023 年发布以来 MMILU 得分快速提升,尤其在 2024 年达到 Grok 2 的显著突破,显示出与 GPT 系列相比的快速追赶与进步。
“Grok 3 具备非常强大的推理能力,因此在我们迄今为止进行的测试中,Grok 3 的表现超越了我们已知的任何已发布产品,这是一个好迹象,”马斯克上周在迪拜举行的世界政府峰会上通过视频通话表示。
Grok 3 也推出了推理模式(Think),通过 Grok 3 Reasoning 和 Grok 3 mini Reasoning,能够像 DeepSeek- R1 等推理模型一样进行思考。Grok 3 的模型可以通过考虑所有可能的解决方案、自我批判、验证解决方案、回溯、从第一性原理思考等方式来解决复杂的问题。不过为了防止蒸馏,模糊化了 Grok 3 的部分推理过程。
Grok 3 Reasoning 在多个流行基准测试中超越了 o3-mini 的最佳版本——o3-mini-high,其中包括新的数学基准 AIME2025。
团队演示了用 Grok 3 的 Think 模式生成一个关于从地球发射到火星再返回地球的动画 3D 绘图,展示下一次发射窗口的轨迹。
在演示中,Grok 3 提供了一个使用 Matplotlib 的 Python 脚本,并解释了代码。代码似乎是通过数值方式解决开普勒定律。代码运行后,Grok 动画化了地球和火星两颗行星,用绿色小球表示航天器在它们之间的旅程。
演示是在现场生成的,因此没有验证解决方案是否完全正确,但佩戴着一个展示地球火星转移轨道的吊坠的马斯克表示与实际解法接近。
提前体验了 Grok 3 的 Andrej Karpathy 表示 Grok 3 的 Think 模式实现了 DeepSeek-R1、Gemini 2.0 Flash Thinking 和 Claude 均未能实现的任务,但他表示顶尖的 OpenAI 模型,比如 o1-pro 同样也能做到。
在 OpenAI、Gemini 和 perplexity 之后,Grok 也推出了自己的深度搜索 Deep Search。xAI 团队将 Deep Search 定位为“下一代搜索引擎”,是 Grok Agent 的第一代产品。它不仅仅是一个简单的信息检索工具,旨在帮助编程、研究和解答日常问题。
从演示来看,Grok 3 的 Deep Search 也并未有太多独特之处,更多强调它不同于传统搜索引擎的关键词匹配模式,能深入理解用户查询的语义和意图,并从多个信息源获取内容,交叉验证以确保准确性,比传统搜索引擎更具可调控性,允许用户指定来源。
xAI 团队特别提到了 Deep Search 搜索过程对用户透明,能让用户了解 AI 的“思考”过程。
Andrej Karpathy 认为 Grok 3 的 DeepSearch 大致相当于 Perplexity 的 DeepResearch,但尚未达到 OpenAI 最近发布的 Deep Research 的水平。
满血“Big Brain”模式
对于更复杂的查询,利用“Big Brain”模式用更多的计算进行推理。xAI 将这些推理模型描述为最适合数学、科学和编程问题,看上去像是“满血版”的另一种说法。
xAI 团队演示了 Grok 3 在 Big Brain 模式下创造融合了 Tetris(俄罗斯方块)和 Bejeweled(宝石迷阵)的全新游戏。xAI 团队解释说,由于是在直播中即兴生成,Grok 有可能会犯一些小的编码错误,导致游戏运行不完全符合预期。。在直播的测试中,生成的游戏能够正常运行,但游戏的颜色显示有些问题,另外不清楚是否实现了俄罗斯方块清除一整行的机制。
xAI 团队也在直播中坐实了将推出一个 AI 游戏工作室的计划,马斯克在前一天也曾在 X 上发表了相关推文。
有钱可以任性,但想成为“最强”要做的还有很多
Grok 3 基于 xAI 的 Colossus 集群,一期 10 万张卡只用了 122 天建设,又用了 92 天扩张到 20 万张,并使用了约 20 万块 GPU 来训练 Grok 3,并于一月初完成了预训练。此前马斯克在 X 平台上发帖称,Grok 3 的开发使用了比其前身 Grok 2 多“10 倍”的计算资源,并且训练数据集得到了扩展,据称包括了法庭案件的文件。在直播中他表示,Grok 3 的计算资源大约是 Grok 2 的 15 倍左右。
马斯克还透露,xAI 正在建设新的 AI 集群,其功率将是当前集群的五倍。
另外关于语音模式,团队没有给出具体的发布日期,但马斯克表示“大概一周左右就会发布”。
具体细节上,语音将直接由类似于 Grok 的模型生成,该模型能够理解所说的话并直接生成音频。这种方式使得 AI 能够记住细节,并更自然地继续对话。语音模式功能将在应用和 API 中同时提供。
xAI 计划在未来几周内推出 Grok-3 的 API。这个 API 将包括 Grok-3 的推理模型和 Deep Search 功能。xAI 团队对企业级应用场景非常期待,认为 Grok-3 的强大能力和 Deep Search 的加入,将为企业用户带来巨大价值。
值得注意的是,xAI 在近期还推出了只要同意共享数据,最低充值 5 美元,就赠送 150 美元的 API 额度的活动。显然,xAI 不在乎让出这点羊毛,更看重的是通过这种方式获取用户和数据。
关于开源计划,马斯克表示将延续此前的策略,当 Grok 3 成熟且稳定时(大概会在几个月内实现)将开源 Grok 2。
目前,用户可以通过 X 和 Grok 的网站和 App 进行体验,并非所有 Grok 3 的模型及相关功能都已上线(部分处于测试阶段)。Grok 3 将首先向 X 平台的 Premium+ 订阅者推出,此外还将推出一个名为 Super Grok 的独立订阅服务,为 Grok 用户提供最先进的功能和最早的访问权限,每月 30 美元或每年 300 美元,SuperGrok 解锁了 DeepSearch 中更多查询次数等功能,还提供了无限量的图像生成服务。
Grok 3 的发布标志着 xAI 在 AI 领域的激烈竞争,不仅包括 OpenAI 和谷歌竞争,还面临着来自新兴中国企业的压力。比如,DeepSeek 让全球的 AI 公司调整策略,让深度思考模型成为“标准”,还促使 OpenAI 最近免费开放了其推理模型,并且也开始放出开源的信号。
而对于马斯克来说,OpenAI 或许是 xAI 最大宿敌。马斯克于 2023 年创立了 xAI,旨在成为 OpenAI 的替代者,并公开批评 OpenAI 计划将自己重组为一家盈利性企业。
马斯克还对 OpenAI 提起了两项诉讼,指控其偏离了最初的创立原则,并提出以 974 亿美元收购 OpenAI 的非营利部门,但该提案上周遭到了 OpenAI 董事会的拒绝。萨姆·奥特曼表示,这一收购报价是“拖慢我们步伐”的策略。尽管马斯克曾参与 OpenAI 的创立,但自 2018 年离开董事会后,他对公司一直持批评态度。
而这两家公司都在进行惊人的融资,估值不断飙升。据彭博社上周报道,马斯克的 xAI 正在进行约 100 亿美元的融资洽谈,融资完成后,公司的估值将达到 750 亿美元,而 xAI 上一次的估值为 510 亿美元。与此同时,OpenAI 正在洽谈筹集最多 400 亿美元的资金,预计其估值将提升至 3000 亿美元。
两者借助资本所带来的“财大气粗”的特点也很明显。软银、OpenAI、甲骨文及阿布扎比支持的 MGX 已于一月联合宣布计划,在美国投资 1000 亿美元,最终将投入 5000 亿美元,用于建设数据中心及其他人工智能基础设施。同时,戴尔科技公司也接近完成一项价值超过 50 亿美元的交易,为 xAI 提供专为人工智能优化的服务器。
从当前情况来看,OpenAI 确实是 xAI 最主要的竞争对手。两者在技术、市场定位和融资策略上都存在直接竞争关系。OpenAI 凭借其成熟的产品线和强大的市场份额仍然处于领先地位。尽管 Grok 3 的发布在某些指标上有所优势,但从整体演示来看,并没有太多创新,更多是补齐和追上行业头部企业。真正支撑 Grok 3 的,似乎更多是那 20 万张 GPU 和源源不断的资本支持,而非真正的技术突破。这次发布也并非马斯克口中所说的“也许这是 AI 超越 Grok 的最后一次机会了。”
Grok 3 发布的开场,马斯克再次介绍了 xAI 与 Grok 的使命:理解宇宙的本质,弄清楚正在发生的事情,寻找外星人的踪迹,探索生命的意义,了解宇宙的起源,并确定其终结方式。xAI 以追求真理为动力,成为终极的求真人工智能。
然而,无论是实现这些宏大愿景,还是面对更现实层面的竞争,仅凭“钞能力”和榜单上的“最强”头衔,显然是不够的,要成为真正的“地球上最聪明 AI”,马斯克和它的 xAI 还有很长的路要走。
中国 AIGC 产业应用峰会回顾
2024 年 1 月 5 日,【智求共赢・中国 AIGC 产业应用峰会暨无界 AI 生态合作伙伴大会】在杭州未来科技城会议中心举行。
大会汇集行业资深专家及领军企业,共同聚焦 AIGC 领域,围绕当下热点话题进行深度延展,探讨行业激烈竞争下的运营新思路、发展新模式!点击文章,回顾精彩内容~
AI 新智界园区开放合作啦!
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。