大模型非共识下,什么是 AGI 的主线与主峰?
2025-04-02 20:04
海外独角兽
2025-04-02 20:04
订阅此专栏
收藏此文章


访谈:张小珺,李广密

「全球大模型季报」是「海外独角兽」和「张小珺商业访谈录」的 AI 领域观察栏目,以季度为单位,拾象 CEO 李广密和财经作者张小珺梳理行业 LLM 领域的重要信号,预测未来。


2025 Q1 中美 AI 领域都相当火热:DeepSeek R1 催化了 RL model 的热潮,头部模型厂商连续发布 SOTA reasoning models,推出 deep research;Manus 的火爆又把 Agentic AI 的讨论带到 AI 社区中心。本期内容是我们对 2025 年第一季度的回顾以及对 AGI 竞争格局、roadmap 的再思考:


• 虽然过去 2 年模型格局、技术关键词不断变化,但 AGI 路线图上只有智能提升是唯一主线,智能本身就是最大应用,要围绕智能本身去投资和思考。模型公司形成壁垒的关键在于成为 Cloud 或 OS,未来模型和产品边界会逐渐模糊;


• 今天最大非共识是 pre-training 空间还非常大,只有 pre-training 才能涌现出新能力,决定模型内在上限;


• Coding 的意义不仅仅在于编程,而是实现 AGI 的最好环境,是模型的一只手,现实世界多数任务可用 Coding 表达,模型通过生成并执行代码来实现对外部信息的采集、处理和反馈;


• ChatGPT 只是 AGI 的“前菜”,是 AGI 攀登的第一站,Agentic AI 才是更加关键的未来。Agent 落地最关键的三个能力是 long context reasoning、Tool-use、Instruction following;


• AGI 时代,组织和文化竞争力是仅次于算力的核心竞争力。
……



💡 目录 💡

     

01 重新重视 Pre-training 

02 ChatGPT 只是攀登 AGI 的第一站

03 Agent & Online Learning

04 大模型的壁垒到底在哪?

05 全球 AI 公司的竞争格局

06 如何构建 AGI portfolio

07 组织文化竞争仅次于算力






01.


重新重视 Pre-training


 张小珺:Base model 的竞争结束了吗?有观点说“现阶段放这么大精力关注模型没有必要,还是应该把时间投入到应用上”,你怎么看?


Guangmi Li:最大非共识是 pre-training 空间还非常大,甚至可以说是刚开始,还会迎来新的能力涌现。我有很强的信心说 pre-training base model 的 scaling 远远没有结束,下一代 SOTA 模型还是能显著超过今天的 SOTA model,不管是 GPT-4.5、Grok-3、Sonnet 3.7,还是 Gemini 2.5 Pro。


之前说 pre-training 结束的共识,很大原因是 OpenAI 的 pre-training 进程变慢了,其实 Anthropic 和 xAI 的进步还挺快的。OpenAI 之前是领先者,领先者的表现就容易被认为是正确的共识,但当领先者不再领先,这个也就是非共识了。


要强调只有 pre-training 才能涌现出新能力,post training 和 RL 是不涌现新能力的,只是激发或加强能力。Pre-training 基本决定了模型内在的上限,后面再怎么做 post training 和 RL 也只能做到 pre-training 的内在上限,只有 pre-training 阶段把 base model 能力往上提升才是最本质的,不然在比较差的 base model 基础上做强化学习,就像小学生刷题,很容易饱和见顶,只有持续 pre-training 才能把小学生本质上变成初中生,O 系列就是刷题。


我们在半年前那篇播客里强调重视 RL 范式的时候提到,“pre-training 有 50% 概率结束了”,但今天所有人都聚焦在  RL、reasoning model 的时候,我认为还是要重视 pre-training。


 张小珺:从外界看 OpenAI 好像没有那么重视 pre-training 了,原因是什么?


Guangmi Li:可能不是不重视,从外部观察,我感觉更多是战略选择和组织问题:


战略选择上,O 系列在 benchmark 上走的非常快,O 系列 2 个月刷分的收益就比 pre-training 1-2 年进步得快,而且 ChatGPT 成长非常快,还在加速,ChatGPT 占据了管理层很大的精力。


组织问题上,外部视角是 OpenAI 的 pre-training 核心团队一直挺动荡的,最早是 Anthropic 的 Dario 带走一批人员,ilya 又离开,CTO Mira 又带走核心的 post training 团队和最早 Infra 团队的核心,原来 pre-training 的人就要不断调到 post-training,团队动荡比较大。


 张小珺:所以 OpenAI 不是 top down 不重视 pre-training 了,而是组织调整,显得不那么重视 pre-training 了?


Guangmi Li:OpenAI 是一个自下而上的公司,做 pre-training 做得好的人走了,今天 Anthropic 和 xAI 的 pre-training 团队比 OpenAI 要强。


 张小珺:O 系列做得很快,但不一定能打开智能的天花板?为什么 pre-training 还要继续?之前说过数据不是很够用。


Guangmi Li:O 系列是加强智能,但能不能打开智能天花板,这个问题没有标准答案。


2023 年我们就在提合成数据,今天很少有人提了,但今天恰好是 RL 能产生更多合成数据,尤其是高价值的 CoT 数据,可以加到 pre-training 环节里,或者说从 pre-training 阶段就做 RL,解决数据瓶颈问题。training 和 RL inference 融合挺难的,涉及训练框架的 Infra 问题,要求 GPU 里同时跑 RL inference 的 sampling 和 training,之前这两者各是一套框架,今天如果要融合,对 Infra 的难度挺高,大家突破这个问题还是花了挺长时间的。


 张小珺:外界认为 pre-training 收益是放缓的,投入产出的 ROI 不明显了,继续投入 pre-training 还能带来突破或能力涌现吗?


Guangmi Li:我很期待新能力涌现,比如 tool use,今天模型的 tool use,即用电脑工具的水平,还是我们爸妈用电脑的水平,后面可能很快到熟练程序员用电脑的水平,Agent 就可以在电脑和手机的数字环境下完成人类操作电脑的绝大部分行为,甚至操作你不知道怎么操作的工具。


绝大多数人用 Excel 公式的能力都不如 Agent,整个 Windows 系统、Office 套件里面累计有上百万个功能点,这些 Agent 都可以非常熟练地调用。


Manus 非常依赖 tool use 能力。Manus 是 Anthropic tool use 能力的“ChatGPT 时刻”。Anthropic Claude 模型非常重视 tool use,做了几百个 tool use 专门的训练,Anthropic 只专注在模型能力提升,不着急做上层产品。Manus 团队对 Claude 模型理解是非常棒的,执行力非常强,第一次让外界感受到了 tool use 能力的 Magic moment,很像 OpenAI 当时做 ChatGPT。很多 Magic moment 还是要靠模型内化能力才能推动的,Pre-training 阶段是最关键的。


智能无上限,一定会持续变的更聪明。每一年回看过去一年,智能技术变化其实非常大。


 张小珺:Anthropic 的 tool use 能力的 ChatGPT moment 为什么不是 Anthropic 做的,而是 Manus 做的?


Guangmi Li:OpenAI、Anthropic 都没有预想到 Agent 来的那么快,模型公司和云厂商都还没有完全做好准备。


 张小珺:站在今天看,实现 AGI 是更清晰了,还是变模糊了?


Guangmi Li:我对两年内实现 AGI 有前所未有的信心,这是 100% 的概率。


 张小珺:为什么这么快?信心来源是什么?


Guangmi Li:离 AGI 越近,AGI 就没有那么神秘。最重要的是想明白了: Coding 是实现 AGI 最好的环境,Coding 意义不在于编程本身,而在于“环境”,现实世界的绝大多数任务都可以用 Coding 来表达,Coding 可能是数字经济 GDP 活动最重要的环境。


构建环境非常重要,AlphaGo 的棋盘就是环境,百度之前是通用搜索,整个网页 index 就是环境,淘宝构建了商品搜索的环境,携程构建了旅游产品搜索的环境,Boss 直聘构建了工作搜索的环境。Coding 是很通用的一个环境。


大家觉得数字经济 GDP 和实体经济 GDP 未来占比会怎么样?在没有互联网之前,100% 都是实体经济,未来可能很极端。如果只看增量的部分,绝大部分都会是数字经济 GDP,这会是实体经济 GDP 增量的成千上万倍。未来人类的经济活动绝大多数都是数字化的表达,那最后都可以通过 Coding 表达,Agent 可以调度物理世界的人和实体去完成很多事情,Coding 就是模型的一个手。


Manus 就给 Agent 搭了个虚拟电脑环境,Agent 来操作电脑的工具。如果 Agent 能操作电脑和手机上正常人能操作的 99% 的任务,而且操作的比人好,是不是就 AGI 了?我觉得这在 2 年内一定会实现。


 张小珺:怎么更好理解“Coding 是环境”,是“模型的一个手”?比如在 Anthropic 上是怎么体现的?


Guangmi Li:好的环境有两个重要的特点:动态、可操作。要求环境不仅包含数据和硬规则,还允许模型“执行”它的想法并获得实时反馈。符合这个要求的环境主要就是 Coding、gaming、science 相关的,其中 Coding 是最通用的赛博世界环境。


“模型的一个手”类似人类通过手去操作物体、改变环境,模型通过生成并执行代码来实现对外部信息的采集、处理和反馈。


Anthropic 为模型设计了很多 tool use 脚手架放进环境里,帮助模型更好理解环境并且操作,比如 os world、computer use,包括把环境中的 RL synthetic data 喂回给 pre-training,都是比较重要的。


 张小珺:现在哪家模型 Coding 做得最好?


Guangmi Li:现在每个模型公司都越来越重视 Coding 了,但我对 Anthropic 的信心也是前所未有的强,Anthropic 还能在 pre-training base model 取得显著进步,实现下一代模型的 SOTA,继续保持或加强 Coding 领先优势,Coding 也是 SOTA。


Cursor 现在是最火的独立编程 IDE 工具,ARR 已经超过 1.5 亿美金了,年底可能 4-5 亿美金,开发者可以在 Cursor 选模型,75% 开发者都是选 Sonnet,Sonnet 可以说是 Coding 默认模型了,因此 Cursor 一个月要给 Sonnet 1000 多万美金 Token 费用,大概是 OpenAI 的 4-5 倍。


 张小珺:OpenAI 为什么没有做好 Coding?


Guangmi Li:可能不是技术能力问题,以 OpenAI 的能力和认知肯定也会很重视 Coding,但过去了一年还没做好,我倾向是战略选择和组织问题。


做好 Coding,要么就是在 pre-training 阶段的 Coding 数据上花时间花精力,把 Coding 实战型的数据集做细致,有人两年前就做到几百个门类细分,有人现在也才几十类细分;要么有全新的方法,比如 RL,这个还需要 Top-down 的战略决定和组织能力。也可能是 OpenAI 的 Coding 现在还没体现出来,未来可能会在某个时候发个大招。


Coding 是个 $1T 级别的机会,只要 Anthropic 能在 Coding 持续领先,就有机会到三五千亿美金级别,Cursor 也有机会到千亿美金级别,Coding 一定会出来抖音、拼多多、微信级别的机会。


 张小珺:模型公司怎么变成 $1T 或者 $10T ?


Guangmi Li:要在 AI for Science 领域实现突破。现在一个减肥药都能每年卖 1000 亿美金,未来攻克癌症、治疗所有疾病,那就是 $10T 了,全人类在健康上的消费要比在今天手机上的消费大 10-100 倍的。


 张小珺:Coding 是一种技术手段,最终 Coding 会成为最好的产品表达吗?


Guangmi Li:Coding 是比搜索引擎和推荐引擎更重要的东西,信息流产品是推荐引擎的表达。编程本身是个高门槛、高动机用户才能用好的产品形式,消费者产品要淡化 Coding 编程元素。


产品表达应该是一种内容或者交互形式。抖音不会说自己是推荐引擎产品,而是短视频产品。把 Coding 当成一个技术引擎比较好,最后的产品表达还没有定义好。


最近 Notion 的首席设计师加入了 Cursor,挺期待 Cursor 在新的交互表达上能做出新东西的。




02.


ChatGPT 只是攀登 

AGI 高山的第一站


 张小珺:领先的模型公司在实现 AGI 路线上有差异吗?


Guangmi Li:OpenAI 和 Anthropic 是同宗同源,最开始路线是一样的,但慢慢地在核心战略 bet 或者路线已经发生了分化。


OpenAI 现在核心 bet 是两个,第一是希望通过 O 系列 RL 或者 reasoning model 路径就实现 AGI,第二是希望把 ChatGPT 做成 10 亿活跃用户的 killer-app。


Anthropic 核心在于专注 pre-training 一个很强的 base model, bet on Coding 和 Agentic。


OpenAI 和 Anthropic 的领导层关心的内容不一样。OpenAI 更关心 RL、reasoning model、O 系列,Anthropic 更关心 base model 和 Coding。OpenAI 重视 C 端市场,Anthropic 重视 B 端市场。OpenAI 是自下而上的组织文化,Anthropic 更加自上而下。


 张小珺:为什么会有这样的分化?


Guangmi Li:可能是 Anthropic 的 Dario 他们都是做 pre-training 出身的,所以对 pre-training 非常有信心,或者大家都有路径依赖。


OpenAI 是 frontier team 做出了 O 系列,O 系列非常亮眼,froniter team 的老大 Mark Chen 现在成为了仅次于 Sam、Greg 的三号人物,所以给了 O 系列更多资源,加上 OpenAI pre-training 和 post training team 变动太大,O 系列优先级肯定比原来的 pre-training team 要更高了。战略选择其实是不同组织能力的表达。


 张小珺:O 系列能走到哪,O3、O4、O5 这么走下去,天花板有多高?


Guangmi Li:O 系列刷 benchmark 刷的特别快,但不确定够不够本质。我不知道 reasoning 有没有落地场景。Reasoning Model 主要表现是提升 Math 和 Coding,Math 没落地场景,主要还是 Coding,但 Reasoning Model 提升的 Coding 不是实战型的 Coding,还是竞赛型的 Coding。Anthropic 做的还是实战型的 Coding 更多一些。


 张小珺:硅谷对不同的路线认知有什么分歧吗?


Guangmi Li:分歧非常大,背后问题的本质是智能重要,还是流量重要。


OpenAI 有非常大的流量,Anthropic Claude 几乎没多少 C 端流量。这一点硅谷的分歧也非常大,硅谷很多 VC,比如 Sequoia US Roelof 和 Khosla Venture Vinod,觉得 OpenAI 应该变成一个大型消费互联网平台公司,训练模型的资本效率很低。


我觉得他们是错的,老牌投资人是喜欢经典的商业模式,但今天 AI 商业模式都是很差的,讨论不清楚,今天还不是讨论商业模式的时候,太早期了。


我有点担心 OpenAI 过早走向一家消费互联网公司,今天产品和流量没那么重要,即便重要,也要在模型训练的优先级之后。


大家认知分歧非常大,每个人都有自己的信仰,也都有自己的 bias。我更相信 AGI 原教旨主义,智能最重要,再构建一个 Google 除了赚钱外,意义并没有那么大。今天是人类少有的一个可以去 push 智能的窗口,杠杆效应非常强。在 AGI 的范式下,在研究驱动的范式下,资本家们很多判断产品和商业模式的惯性有挺高概率是错的。


 张小珺:你说有点失望 Sam 竟然把 10 亿用户作为首要目标,而不是 AGI-first、Research-first、model training-first,去 push 智能的边界?


Guangmi Li:今天还在智能很早期的阶段,不能停下来。OpenAI 的杠杆效应很大,几千个人改变了几十亿人,不应该把构建新的互联网平台当作最高目标,push 智能才是最高目标。今天还有很多问题要解决,比如攻克癌症,让世界没有疾病。


OpenAI 是有机会对人类帮助更大的。不应该降低对科学的 vision,过早追求商业可能会错过 AGI 科学的文艺复兴。


 张小珺:Anthropic 和 OpenAI 有不同的 bet,谁会是最后的赢家?


Guangmi Li:取决于智能的水平走到哪。


各家模型公司能否拉开显著差异,最核心的是 base model 能否显著领先其他人?如果智能往前走的很强,模型显著领先,那就会有流量迁移,流量是没有忠诚度的。


Google 在模型上无法显著反超 OpenAI,Gemini 模型虽然好,但流量一直上不去,过去一两年 Chat Bot 绝大部分流量还是去了 ChatGPT,本质还是因为 ChatGPT base model 过去是有一定领先优势的,技术领先优势转化成了流量优势。


Anthropic 的 Roadmap 很好,长期来看 Anthropic 可能是比 OpenAI 更有价值的公司。我有一定 bias,或者我比较偏 AGI 原教旨主义,我更关心谁更重视 pre-training,看谁能先出来大幅超过对方的 base model。Pre-training 一旦放松或者降低优先级了,后面很难追,RL、reasoning model 其实容易追,一旦 Anthropic pre-training 做出来更强的 base model,OpenAI 再从 RL 或者 O 系列切回来是很难的。


从外部视角看,OpenAI 对 pre-training 的重视度是不够的,过多精力花在 reasoning model 和 ChatGPT C 端的各种功能上面,这是不够本质。


大家的路线差异其实无关对错,这两家应该都能实现 AGI,大家都是去攀登珠穆朗玛峰,AGI 科学探索每天都在突破边界,每个团队都要敢于 bet,把 bet 的东西 push 到极致就是了。


OpenAI 对行业贡献是非常大的,虽然没有开源,但指明了路线,一定要尊重和 value OpenAI 的贡献。但这个领域竞争非常激烈,今天的差异化表面上是各家战略选择问题,其实回到本质上,还是组织能力的表达。


 张小珺:国内有 DeepSeek 这样 push 智能边界的公司,而且是开源,其他公司还有必要训练自己的闭源模型吗?


Guangmi Li:训练模型需要有很强的 training 能力,如果没有,那看不到很多风景,很多东西得自己做才知道。还有一条路线是从 post training 做起,然后做 mid training,最后再 per-training。还是要有比较强的 training tream,不然没法向下改模型。长期来看,想做大的应用公司是几乎一定要做这些事情的。


 张小珺:你提到智能还是在很早期阶段,但有人觉得现在已经很聪明够用了,大家认知差异原因是什么?


Guangmi Li:可能是想象力的局限,人类在没有汽车之前,最多是想要一个更舒服更快的马车,围绕马车做了很多工作,但福特 T 型生产线已经滚滚而来,今天处在 T 型生产线大规模量产智能的前夜,后面人类就会发现竟然还可以坐飞机,可以更快。


 张小珺:在现在这一波 AGI 的浪潮下,越是年轻人越愿意相信智能的边界无限。


Guangmi Li:想象力可能和年龄有关,随着年龄越大,想象力反而会递减。


 张小珺AGI Roadmap 是怎么样的?


Guangmi Li:AGI 探索就像是爬一座科学的高山,最后谁能到珠穆朗玛峰,要思考 AGI 登山的主线是什么,哪里是珠穆朗玛峰。



我最近脑子里反复想的就是:智能提升是唯一主线,智能本身就是最大应用,要围绕智能本身去投资和思考。


ChatGPT 走到 3.5,通用泛化性变强,解锁了 Chat Bot 对话能力。Claude 走到 3.5,Sonnet 解锁了 Coding 能力,跑出了 Cursor。今天大家在解锁 Agent、Agentic,未来还有 Science、Robotics。


AGI 探索是攀登科学界最高的那座山,ChatGPT 只是这座高山山脚的第一站,后面还有很多个山头:Coding、Coding Agent、General Agent、AI for Science、Robotics,这几个关键词都在登山的主线上,可能多模态、Online Learning、Multi-Agents 也大概率在主线上。


这样能画出来一条登山的路线图,每个 milestone 都有代表性的名字,比如 GPT-3.5 或 GPT-4、ChatGPT、Claude Sonnet 3.5、OpenAI O 系列、Deep Research、Cursor、Devin、Manus 等等。


ChatGPT 或 Chat Bot 是个必然也是个偶然,但 ChatGPT 只是前菜,接下来 Agent 才是正餐,AI for Science 科学探索才是珠穆朗玛峰,去真正攻克癌症和人类几乎所有疾病,创造全新的经济增长的最大驱动力,爸妈和长辈未来都愿意为健康和身体买单付费,这是消费的来源。


我在 Roadmap 里没把 Sora 放进来,因为视频生成在今天可能还不是主线,文生图也不是主线,虽然文生图也代表智能,但不是实现原教旨主义的智能。这些可能是 OpenAI 的烟雾弹。多模态理解是主线但研究上需要突破,突破的时间点不确定在哪个时间点,但感觉不用太久。


另外,站在用户视角,智能涌现或登山就是一个个的 Magic moment,每爬升几百米海拔,用户就看到不同的风景,用户可感知差异的拉大就带来巨大流量迁移和应用爆发的机会,ChatGPT 是这一波技术革命开始的 Magic moment,Claude Sonnet 3.5、Manus、Sora、AlphaGo 都是 Magic moment,随着 model scaling 带来智能涌现,用户会有持续的感知差异,一旦用户感知差异很大,用户就会发生迁移。


OpenAI ChatGPT 真的有壁垒吗?之前提到心智和品牌是护城河,但本质上这个壁垒护城河是很低的,今天做 AGI 的模型公司和产品都没有绝对壁垒,因为技术进步太快,壁垒没办法构建。如果技术上突然好 10 倍了,出来一个多模态版本的 ChatGPT,或者 Agent 范式下的 ChatGPT 新形态,或者 Manus 这种产品可以大规模放开使用,都是有机会大幅超过 ChatGPT 的用户体验的,我对未来两年出现好 10 倍的技术也是有前所未有的信心。


今天还是围绕智能主线,最重要的事情就是 push 智能往上走,做应用的要构建一个环境或容器,承接住研究溢出的智能红利。研究溢出的智能红利是今天做应用最大的红利。


 张小珺:去年下半年我们以为国内的一二名已经差不多定下来了,但 DeepSeek 出来后,它的智能水平在那个时间点是最好的,就带来了产品的爆发,但这个也不是终局,也是动态的?


Guangmi Li:DeepSeek 的 Chat Bot 那段时间流量增长非常恐怖,如果把流量接下来,有可能今天都上亿 DAU 了,可能可以和 OpenAI 掰手腕,但是 DeepSeek 选择了放弃,这个原因在于:


首先,DeepSeek 的组织文化决定了战略表达,如果把流量接下来,那就需要一个产品团队,这可能更适合字节、Meta。第二,Chat Bot 的商业模式、变现效率、产品形态可能都不是最本质的,智能本身是最本质的,今天智能的收益还是更客观的,那就应该继续 push 智能,放弃产品可能是对的,除非 Chat Bot 这个产品哪天发生了质变。


 张小珺:为什么在 Roadmap 上把 AI Robotics 排在了 AI for Science 后面?


Guangmi Li:我对 AI Robotics 的态度有些变化,从第一性原理看,今天做 Robotics Foundation model 不够本质:


首先,数据上,OpenAI 和 GPT 语言模型能有 scaling law 本质是有个 Common Crawl 数据集,持续抓住互联网上的数据,现在机器人的数据采集太低效了,一个人操作几十台设备,每个小时成本都几十、上百块,要采集 1 亿小时有效数据就要几亿美金成本,scaling law 的验证成本很高。期待 robotics 领域里 vertical Common Crawl 数据集出来。


其次,今天在算法架构上也没达成一致,还没有通用泛化性的架构出来。


从第一性原理出发,今天语言的基础模型多模态能力变强了,可以先在数字世界实现 AGI,Agent 能看懂电脑屏幕,执行各种 2D 操作,未来从 2D 走向 3D 是一个比较自然的过程,那时候对硬件依赖度也降低,电脑其实也是一个硬件载体,应该让 AI 去适配硬件。


我对 AI for Science 的预期更高一些,上一波 AI for Science 好像没找出什么好药,但现在有可能大幅去 push,比如在湿实验之前搭出来一个干实验的环境,用 Agent 构建一个虚拟的实验室,变成 platform based,更 scalable。AI for Science 还是有一些明显的趋势,现在还有挺多创业公司。


AI4sci 现在有两个明显的趋势和方向:第一,self-driving lab 正在出现,自动化实验室是未来的大趋势。第二,各个垂直领域的 foundation model for bio 都在出现,蛋白质级别的结构模型已经到了生产可用的 GPT-3 moment,基因组级别的虚拟细胞 foundation model 已经开始表现出一些初步的智能。


如果构建一个 AI for Science 的虚拟实验室,这个实验室是可以自己驱动非常多工作的。第一是工作流,每个地方都可以做提效。每一个生物、化学 PHD 有很多重复性工作,Agent 可以 cover 很多重复性的工作,让 PHD 的带宽放大,相当于 AI 把整个的 Lab 的 batch size 加大。湿实验很难被替代,但可以做到进入湿实验前的 sample size 和探索空间变大,这也是很有意义的。


第二,非垂直领域的 foundation model 也出现了,比如蛋白质、RNA 等等,过去这些场景很多要靠专家的 trail-and-error 感知,对各种序列的理解能力,这个领域容易出现 “super human”级别的人类。


我现在花了很多精力开始学 AI for Science,预计 2026、2027 年可能是一个爆发时间点。


 张小珺:关于人形机器人公司你怎么看?


Guangmi Li:机器人和自动驾驶的技术成熟周期比较像,15、16 年就在提自动驾驶,现在过去十年了还没有大规模落地。Robotics 还需要一个技术的成熟过程。


从第一性原理来看,确实机器人技术是不成熟的,还是需要很多研究工作去实现所谓的 Magic moment,比如泛化性。最终真的需要物理的机器人吗?如果虚拟的 Agent 可以做非常非常多的事情,真的还需要物理机器人吗?


 张小珺:怎么看待现在软硬一体的应用,包括眼镜。


Guangmi Li:更看好手机持续变得更强。智能眼镜绝对不可能替换手机,最多是一个加强。今天眼镜更像是一个可以记录东西的摄像头。AGI 时代,手机只会更强,不会被削弱。因为 Context 输入输出还是很稳的,手机已经变成人的器官了。


 张小珺:“智能本身就是最大应用”,智能的本质是什么?


Guangmi Li:每个人的理解肯定不一样,大家有想法可以打在评论区,我很好奇每个人对智能的理解是怎么样的。也可以问下 ChatGPT 和 Claude 或豆包。




狭义上,智能是归纳、总结、推理,广义上,智能就是人类进化,人类进化有 3 个关键词:生存、探索和自动化。生存是所有事情的基础,人类持续的探索形成了经验、知识、群体组织和国家、公司制度,自动化就是软件和机械,自动化是对探索之后的最佳实践的传递,持续帮助人类把生产力提升。


金钱是人类社会的 reward model,激励一些好的探索,人类诞生金钱后,经济总量增加很快,说明一个生态系统里面需要有 reward 奖励系统的。


AI 智能很重要的原因在于 AI 是能增加人类探索空间的,比如我自己是 Deep Research 日活用户,我每天至少问 3-5 个问题,它经常给我很多思路的启发,是自己完全没想到的,之前一上午调研一个问题,自己要浏览几百个网页,现在可以交给 Deep Research,一上午可以平行交给他 3-5 个调研任务,甚至更多的问题,让我自己做投资、探索、研究的 capacity 提升了非常多。


未来人类能探索很多东西,无数的 Agents 可以虚拟出来一个地球,虚拟出来虚拟实验室,算力和数据帮人类做探索。我认同 Anthropic CEO Dario 说的未来一个世纪的探索,会被压缩成 5-10 年。Coding 就是未来 AI 自动化探索的结果,人类绝大多数的任务都通过 Coding 来表达。


 张小珺:智能进步的衡量标志是什么?


Guangmi Li:有非常多的衡量标准,一个可能是解锁 AGI 应用的速度,出来一个个的 Magic moments,这个进程明显是在加速的,未来 AGI 应用爆发越来越多。


如果非要一个量化的标准,Token 消耗量可能是一个标准。一个 Chat Bot 对话可能消耗几千个 Token,一个 Perplexity 搜索大概消耗几万个 Token,Manus 一个任务平均要消耗 70-80 万个 Token。


还有个标志是 AI 可能会做出很多超出人类认知的行为,比如模型开始写出人看不懂的代码,但就是 work,我们也不用管为什么 work。


 张小珺:为什么 Manus 要消耗那么多 token?


Guangmi Li:Manus 做的工作可能都是几十步、几百步,甚至上千步的,要帮我读几十、几百个网页,还要调用很多次工具,而且每做下一步的时候,上一步也非常重要,可能还要放到 Context Window 里,那 token 消耗量是反复增加很多的,对 Long Context 要求是更高的。Manus 操作速度是比人操作快很多的。




03.


Agentic AI & Online Learning


 张小珺:为什么 AGI 应用爆发的数量还比较少?虽然有 Manus,但还没出来真正大规模使用的 Agent?


Guangmi Li:很大程度是 Agent 产品处于供给受限的状态,今天 Agent 是过度依赖模型能力。Agent 是新物种,模型和云厂商其实还没做好 Infra 的准备。


今天能讲出来的 Agent 就几种,比如:

• 文本类任务,比如 Deep Research,未来可能和 operator 集成;

• Coding 类任务,比如 Devin, 未来 OpenAI、Anthropic、Cursor 可能都会做 Coding Agent;

• 偏通用、日常任务,比如 Manus,Anthropic 的 Computer use, ChatGPT Operator。


之前我和另一个原教旨主义的好朋友聊到 AGI 登山路线图,他有一个很好的描述说,智能水平离 AGI 越近,可能就越像宇宙大爆炸,今天还能画出来单点或一条线,后面可能就没单点了,宇宙大爆炸之后就是百花齐放,全面展开了。AGI 的渗透很慢,一旦到某个临界点爆发性很强。


 张小珺:黄仁勋在 GTC 重点提的 Agentic 范式,Agent、Agentic 关键能力是什么?


Guangmi Li:Agent 落地有最关键的三个能力:第一个是 Long Context reasoning;第二个是 Tool use 工具调用能力;第三个是 Instruction following 指令遵循,做的任务很长,就要把整个指令要理解,而且要 follow 非常好。


三个能力对应三种不同的 Infra 能力,比如给一个 Agentic 环境, 其实就是给 Agent 搭一个电脑、虚拟机、操作系统或者浏览器,环境是非常重要的。还要给 Agent 工具、Context、memory。



外界经常提到的 Planning、reasoning、action 这几个能力也非常重要。模型内在的 planning 很重要,在模型做多步骤任务的时候,模型自己要知道自己哪一步能实现,哪一步实现不了,reasoning 也很重要。


Coding 本质就是对应到每一步的 action 执行,也要会用工具 Tool use。Instruction following 是非常重要,Anthropic Claude 是断档的领先,这个和 Coding 比较强也是有相关性的。


上一期播客已经提了 Context 很重要,现在 Context 是前所未有的重要。未来要完成任务自动化的话,要调取各种背景数据,这些数据存在各个软件里面,比如社交软件、旅游软件、电商软件,数据就像存在了银行的钱,现在还没网银系统,需要一个标准接口,把各个银行的数据打通,Context 里存在支付宝级别机会。


 张小珺:Long Context 非常重要,怎么更好理解 Long Context 的重要性?


Guangmi Li:Agent 未来都是 long horizon reasoning,有非常多的步骤。假如做 1000 步解决一个复杂问题,后面的每一步要看前面几步完成的结果,还需要 tool use,最后返回的东西会很大,很容易上到 1 million 的 Token,这个需要 Context Window 很长,能放进去 self inflection 自我反思的进程。


今天大家还没有找到真正有效的 Long Context 的突破方式。Google 1 million token 也只是大海捞针,并不是真正意义上的 Context 解决。这里难点比较多,一是数据上,历史上很难找到 1 million 同时推理的数据,因为要做 Long Context 的前提是有很多 long horizon reasoning 的数据,但这些数据都不是现成的。二是成本,成本是平方级别往上增加。三是架构,今天的 attention 架构可能还是需要改变的。


AGI 接下来的 milestone 是 long-term memory,这个会取代 Long Context。再长的 Context,开启新 task 就没了。long-term memory 怎么解决也是很值得研究的,不知道什么时候能实现。


对于 Long Context 最简单的理解就是,像有了电之后,电线需要铺很长,且能耗很低,要把这个电送到很远的地方。MCP 就是标准的插座,应用就是家电。


Long Context 在终局很重要,所有的 Long Context 技术本质上都是将长序列信息压缩。Linear attention 的主要问题在于压缩方式不够动态,先压缩成固定大小,之后再尝试从这固定尺寸的压缩结果中提取信息。今天压缩方法有多种,sparse 压缩可以找出统计上的点;cluster 压缩则将相似内容合并处理;而 linear attention 采用类似傅里叶展开的方式,寻找名义上的表达内容。


从根本上讲,最理想的压缩方式是将信息直接存入模型的 weight 中,即参数权重。大家尝试过 Linear attention,但 compression rate 不够高,因为本质还是一种线性压缩。Inference time scaling 是一个成本问题,平方比线性更贵。Long Context 今天还没有标准答案。


 张小珺:你说两年内实现 AGI 这个确定性比较高,是沿着现有的路径往下走吗?


Guangmi Li:是的,2026 年底或者 2027 年初。


 张小珺AGI 的定义有变化吗?


Guangmi Li:在第一期播客提过 AGI 的定义是 3 个 90%,在 90% 行业、达到 90% 专家水平、能做 90% 有经济价值的工作,这个定义没变。今天可以再加一个环境,是在电脑或者数字、计算的环境下。


 张小珺:如果现有路径不能实现 AGI 呢?还有哪些新的路径吗?


Guangmi Li:如果说未来还有范式级的路线,那可能是 Online Learning,核心是让模型可以自主在线探索并学习。很像人类的生存方式,在生存和激励的基础上,有充分的好奇心做探索,把好的 workflow 抽象并自动化成自己的 workflow。


Online Learning 是让模型通过和用户的交互,实时更新小部分参数。但是什么情况下值得模型记忆和更新,这是没有清晰 reward 的,模型要达成的目标没有好的定义方式,这个是对未来 AI Agent 有挑战的。


Online Learning 能力有可能可以由模型微调实现,包括个性化的 LoRA,可能由 multi-Agent system 实现,甚至可以用一个定义好的 memory Agent 来做出智能的记忆机制。这也可能是一个还没有想到的新技术解法。不同人听到同一个内容之后总结提炼的记忆也不一样,因为这个很依赖智力、经验和品味。智力是模型需要提高的,经验和品味也是挺重要的。Chat Bot 这种对话产品的信息非常稀疏,在这种产品下做 Online Learning 难度挺大。


人类本身的 reward model 到底是什么?用来衡量一个人的量化标准可能是金钱,但金钱不完全客观,有钱人不一定是好的人,穷人不一样是坏的人,人类也缺好的 reward,历史上很多有钱人都没被铭记,反而是做了探索和突破的创新者被铭记了。Ilya 在 Online Learning 上做得好。


Memory、Multi-Agents 应该不算范式级变化。在 pre-training 上面做 RL 算半个范式创新,因为这个可能领先的模型都已经在做了。


还有一个范式是全模态统一架构,多模态的输入和多模态的输出,统一架构的想象力比较大,但研究上还需要做很多探索工作。


 张小珺:GPT-4o 可以通过文本生成图片,这个有创新吗?可以算全模态的第一步或前几步?


Guangmi Li:我觉得有创新,非常耗卡。


 张小珺:怎么评价每个路线的差异呢?


Guangmi Li:可以画一个坐标轴,横轴是资源和精力的投入,纵轴是智能的 performance,然后再画几条线,比如 pre-training、RL、Data,最后看每条线的收益走向和天花板。有可能数据那条曲线收益是非常高的,大家要很重视数据。


 张小珺:刚才这些对 GPU 或者英伟达叙事影响有多大?


Guangmi Li:未来会有两个叙事对算力刺激很大,一个是 pre-training 叙事重新回来,二是 Agentic 对 inference 算力消耗比 Chat Bot 的算力消耗有 1000 倍量级的提升,后面做复杂任务都是 Multi-Agents 持续的 inference。我对算力需求一直是非常乐观的。


 张小珺:怎么看待贾扬清的公司(Lepton AI)被卖掉?英伟达在下一盘什么大棋?


Guangmi Li:最大的棋是英伟达变成一个云厂商,变成 AWS 或 Azure,但老黄要照顾和云厂商的客户关系,不敢放开手脚去干,之前支持了很多 GPU Cloud,coreweave 都上市了,但这些 GPU Cloud 软件技术都很差,比 AWS 和 Azure 差太远了。贾老师的 Lepton 全栈的思路挺符合英伟达要自己做云的战略的,贾老师 Lepton 卖的非常聪明,读到了英伟达的需求。


 张小珺:能不能总结一下上面说的全部?


Guangmi Li:第一是对实现 AGI 有了前所未有的信心,第二是对 Pre training base model 持续提升有信心,第三是理清楚了 AGI 的主线,第四是对 Anthropic 有信心,长期应该会是比 OpenAI 更有价值的公司,得 Coding,得 Agentic,才能得天下。




04.


模型公司的壁垒到底在哪?


 张小珺:有一部分人在当下没有选择去关注模型能力提升,而是去关注应用,你觉得这个判断是对的吗?


Guangmi Li:应该去做研究驱动的应用,而不是用产品拉动的应用。


 张小珺:AI 市场目前有没有泡沫?


Guangmi Li:泡沫肯定是有的,但 Agent 泡沫还没开始。Pre training 有一波 hype,过去半年 RL 有一波 hype,第三波 Agent hype 刚开始,后面应该能看到很多应用套壳公司 IPO,这很正常。


 张小珺:现在看起来是 AGI 技术在快速进步,但 AI 的产品和商业模式没进步,普遍定价是 20 美元 / 月。


Guangmi Li:我也很好奇为什么今天定价都是 20 美元,是参考 SaaS 的定价吗?但 SaaS 背后不会消耗大量 token,今天的 AI 产品都是消耗大量 token 的。长期来看这个定价是偏低很多的。


比如我们招一个投资研究员年薪 100 万,如果 Deep Research 真做的更好,那是不是每年可以花 30 万给 Deep Research,让一个研究员的 capacity 变成 3 个人的 capacity。


 张小珺会有绝对通用的 Agent 出现吗?


Guangmi Li:能不能通用取决于 pre-training 和 RL 能走多远。还有刚才提到的那些关键能力,包括 planning、reasoning、Coding、action、Tool use、instruction following、Context,这些都是通用能力,如果通用能力很强,那是不是也接近通用 Agent?但今天如何做 Agent 是很强的非共识,现在有不同的路线做探索。


 张小珺:Reward Model 泛化了吗?


Guangmi Li:泛化性是最关键的,但现在比较微弱。


 张小珺:模型的壁垒和长期商业模式会怎么样?


Guangmi Li:模型公司的 Secret 没有保鲜期,人员流动很快,大家带着信息在不同公司流动。裸模型发布的时代可能会结束,未来模型的壁垒可能主要是两个:一是成为 Cloud,OpenAI 要变成变成微软的 Azure Cloud,二是成为 OS,养出一个生态,后面大家要开始打造 Operating System 了。


今天的硬件都是在语音端,就是 GPU,今天除了手机,没有看到好的端。


OpenAI 的商业模式也有可能是很好的,只要定价还可以继续提升,to C 的生意比 to B 卖 API 生意要好,毛利更高,OpenAI 还是站了比 Anthropic 更好的位置。Anthropic 是专注模型 per-training 能力,几乎放弃或不重视 C 端流量,不知道这件事情对不对。


 张小珺:投资人应该怎么投 AI 应用呢?应用公司怎么构建自己的壁垒和护城河?


Guangmi Li:投资人之间的分歧也比较大。如果投应用,倾向于投资研究推动的、research 溢出的产品。如果是产品推动研究,就不值得投资。


今天应该花时间在理解基础模型 Research 的突破,应用是承接智能研究的红利,应用创业者都是盗火者,盗取智能溢出的红利。今天最大的红利,就是承接住模型 Research 结果的红利。


应用有没有护城河取决于,第一,用户数据能不能用起来,Cursor、Perplexity 积累的应用数据怎么用起来,第二,怎么构建一个独立的环境。长期想做大的 Agent 公司要具备向下调整模型和做 Research 的能力,不然就容易被模型公司或者能向下调模型能力的公司干掉。


 张小珺:今天对于用户数据能不能用起来,有结论吗?不能形成闭环或者数据飞轮?


Guangmi Li:用户数据的作用非常微弱,应该没有大的用处。


今天 Chat Bot 收集了很多偏好数据,更多 push MAU,但不提升模型能力。提升模型的数据叫能力数据,不在用户数据中,因为模型今天比绝大多数人聪明。


 张小珺:长期来看,模型会把产品吃掉吗?


Guangmi Li:本质是 feature system 和 Learning system 哪个更快,模型是一个进步速度非常快的 Learning system,越来越多的能力和 feature 都在内化到模型,模型上面的脚手架要持续重置,套壳 wrapper 的价值越来越小,但会产生新的套壳价值,套壳的阶段性价值都存在,所以做应用、做套壳的执行力要快,退出也要快,更快的去做下一个事情。


过去两年 record 来看,Focus 产品的 AI 公司绝大多数都失败了,而 Focus 模型本身的公司都成功了,focus 模型不代表一定要自己 pre-training 模型,做模型的盗火者也可以,Perplexity、Cursor、Manus 其实是模型的盗火者。


 张小珺:为什么 Perplexity 作为模型盗火者,没有被模型公司吃掉?


Guangmi Li:这是因为 OpenAI 的战略选择和组织能力。今天最大的应用还是 ChatGPT,ChatGPT 过去两年增长非常快,差不多 7 亿月活,4 个多亿周活,市场占有率在 Chat Bot 里是持续收敛加强的,代表着核心价值还是被基础模型公司拿走了。


如果我是 Cursor CEO 或者 Perplexity CEO,危机感是很强的,会担心基础模型公司升级。Perplexity Deep Research 是不如 OpenAI 和 Grok 自己原生的效果好,Cursor 因为 Sonnet 3.7 出来后,维修了三四周,因为之前 Cursor 有一套外部脚手架,Sonnet 3.7 进步的时候就内置了脚手架,所以就冲突了,现在 Cursor 也招了 Midjourney 做 training 的人过去,要端到端训练 RL、自己的模型。每一款想做好的超级应用,长期都还是需要端到端训练 post training、RL 相关的。


另一个存在的问题是模型公司能不能做好产品,这非常考验组织能力和优先级,Anthropic 现在优先级就不是做产品,他们模型训练搞的风生水起,DeepSeek 也不需要太着急做产品,现在智能 Research 的收益还是更重要的。


但未来模型和产品的边界会变得越来越模糊。应用公司会做自己的模型,模型公司也会往上做产品。


 张小珺:Agent 对 SaaS 公司会是什么影响?


Guangmi Li:如果 Agent 到本科生水平,还需要 SaaS 吗?假如 Agent 有了无限的 Memory、Online Learning,Agent 会自己会做 Research,相当于你的 iPhone、微信全部权限开放给我,我花 1 万小时研究你的微信,可能比你还懂你自己。


有了 Agent 之后,不知道 SaaS 公司存在的价值是什么。


 张小珺:GPU Capex 投入这么大,Capital efficiency 不够高,模型训练的经济性如何理解?


Guangmi Li:OpenAI 这几百亿美金的投入,其实是给全人类提供了巨大的技术杠杆,OpenAI 几千个人杠杆了几亿人的生产力,是很伟大的,给通胀的世界提供了巨大的通缩力量。


传统的软件开发是要把一个个 function 都要开发出来,现在 AGI 应用是 70-80% 的东西都不用开发了,今天都包在模型里面了,直接调用模型就好了,相当于人类未来 10 年的 R&D 成本提前投入了,是人类面向未来的大基建投入。


 张小珺:对于模型和应用的关系,以及价值链划分,怎么看?


Guangmi Li:今天价值链的利润池分配很不合理的,比如从英伟达到 AWS、Anthropic、Cursor,英伟达几乎拿走了利润的 80%,AWS 拿走了 30%,Anthropic 是亏的,Cursor 也是负毛利。


长期看,利润会逐渐往后迁移,AWS 的利润会起来,模型和应用公司的利润也起来。我是对模型公司的长期价值信心越来越强的。


 张小珺:2025 AI 哪里会出黑天鹅?


Guangmi Li:现在已经出现 DeepSeek 了,持续再出现的概率很大,黑天鹅事件能把很多模型公司下限打到很低,就是价值毁灭。


比如 DeepSeek R2 追到 O3 水平,对生态是好事,但算不上黑天鹅量级。能算得上黑天鹅量级的,比如 ilya 出一个全新架构,学习效率很高,很少的数据和一定的算力就可以很聪明;比如 Mira 做出下一代多模态的 ChatGPT,打败今天的 Chat Bot 形态,或者谁定义出了新的 Agent 产品形态。还是会有黑天鹅,但不确定哪里爆发出来。




05.


头部 AI 公司最新竞争格局


 张小珺:现在基础模型公司的竞争格局是怎么样的?


Guangmi Li:OpenAI 现在核心 bet 是两个:第一是希望通过 O 系列 RL、reasoning model 路径就实现 AGI,第二是希望把 ChatGPT 做成 10 亿活跃用户的 killer app。


Anthropic 核心 bet,一是专注 pre-training 一个很强的 base model,bet on Coding 和 Agent 或 Agentic。OpenAI 重视 C 端市场,Anthropic 重视 B 端市场。


前面有一些吐槽 OpenAI 不好的,但从实际格局来看,OpenAI 领先优势在过去两年是在加强的,让整个模型格局收敛的很快,小模型和垂直模型公司已经没了,可能长期就不存在独立的小模型和垂直模型公司,有可能就是基础大模型公司 take 一切。OpenAI ChatGPT 流量集中度持续在大幅提升的,增加的很快,其他 C 端产品几乎没出来,Perplexity 量也没有那么大,最后流量都还跑到了 ChatGPT。


从 AI native revenue 角度,OpenAI 和 Anthropic 这两家几乎拿走了整个市场 revenue 的 80% ,Cursor 都是给 Anthropic 打工。把 OpenAI 和 Google 对比,Google 过去 1-2 年几乎没从 OpenAI 抢走什么东西,OpenAI 的增量用户是非常强的,还在持续变强。


最近 OpenAI 又发布了文生图,ChatGPT 过去两年的产品越来越丰富,是在显著进步,但 Google Search 并没有显著变好,且份额开始下降。一旦 Google Search 份额显著下降,是非常可怕的。OpenAI 就是盯着 Google 打的,可能成为下一个 Google。


OpenAI 已经把很多创业公司的机会磨灭了,OpenAI 的生态下其实没长出大公司。Anthropic 想当 Andorid,OpenAI 想做苹果,但理论上 OpenAI 也可以即做 Andorid 也做苹果,但可能因为 ChatGPT 过于成功有拖累了。


之所以 Anthropic 和 xAI 还能活着,背后其实是 Amazon 和 Musk 撑着,不然早掉队了。 但 Anthropic 这个团队是很强,是超预期的,Anthropic 生态也越来越好,出现了 Cursor、Manus。


DeepSeek 是完全意料之外的,OpenAI 和 Anthropic 觉得 DeepSeek 对他们零影响。我倾向于认为 xAI 的 Grok 和 DeepSeek 在路线上还是跟随 OpenAI 现有路线,先把 OpenAI 实现的东西追平,去逼近,还没实现反超,在追平的基础上再有新的 bet。


Google 多模态比较强,其他的 bet 不算清晰,还是以跟随为主,开玩笑说 Google 是被 OpenAI 领导的公司,经常能在 OpenAI 发出来东西之后,3 个月时间追平甚至领先,但每次又得到 Sam 的狙击。Google Gemini 流量其实还是很小。


 张小珺:GPT-4.5 算不算领先?


Guangmi Li:把模型 scaling 到很大的意义还是比较重要的,如果不 scaling 上去,相当于登山没有登到很高的地方,view 就没有看到。GPT-4.5 可能还是会比较强,很多能力今天没有被激活,我觉得 4.5 的意义可能比 O3 更大。


 张小珺:GPT-5 为什么一直在跳票?


Guangmi Li:假如 OpenAI 和 AWS 合作,而不是微软,可能 GPT-5 早就出来了。微软的 Infra 可能太拉胯了,如果一半时间都在 debug,相当于 AGI 时间延长了一倍。


 张小珺GPT-5 会是什么样?


Guangmi Li:Sam 在 Twitter 上说 GPT-5 是 hybird model,我猜是 GPT 作为 base model,并融合 O 系列。但今天 GPT-4.5 这么大的模型,做 RL 成本太高,跑不动,估计还得重新训练一个比 4.5 小的模型,但能力要非常强。GPT-4o 可能马上就退出历史舞台了,可能要有一个新的旗舰模型来支撑。


 张小珺:估计什么时候能看到?预期有多高?


Guangmi Li:预期今年夏天能看到。应该会有 GPT-3.5 到 GPT-4 量级的提升,人的 benchmark 不太能发现模型背后的暗物质。


 张小珺:怎么看待 OpenAI 支持了 Anthropic 的 MCP 协议?这两家关系如何?


Guangmi Li:这表示基本确定 MCP 就是 AI Agent 的 tcpip 协议了。OpenAI 还挺尊重 Anthropic 这个团队的,这个团队专注做 research,Sam 也挺大气的,虽然有竞争,但大家路径在分化,一个 to C,一个 to B,也还行。


 张小珺:OpenAI 和微软为什么会有裂痕?


Guangmi Li:$7T、500B 的本质是什么?如果 Sam 有了 5000 亿美金,OpenAI 其实就变成新的 Azure 云服务商了,会不会和 Azure 发生根本性冲突?500B 可能是市面上能圈到的所有的钱了。


 张小珺:OpenAI 和微软分家,对微软影响多大?


Guangmi Li:Azure 起了个大早,但可能是个 AGI 失败者,可能也没有那么失败,毕竟 OpenAI 很多的 inference 还跑在上面。微软手上一堆好牌,但没打好,开发者产品都让 Cursor 等应用跑出去了。今天的 foundation model 就是下一个 Window 操作系统,微软如果没有操作系统和开发者生态是比较困难的,更看好 AWS。


 张小珺:OpenAI 有没有失败的风险?


Guangmi Li:整体还好,OpenAI 刚融了 400 亿美金,未来几年应该比较安全。C 端领先优势一骑绝尘,也还比较稳。投资 OpenAI 更像是投一个消费互联网公司的逻辑了,看能不能成为下一个 Google。


OpenAI 可能很快就 3000 人了,有点走向 Google,组织一旦变大,可能就很难极度专注 AGI 了,要做的事情太多。我更关注 OpenAI 后面会砍掉什么业务,比如就放弃 API,专注做 C 端 ChatGPT,做好更多的产品,做好 Coding Agent,去掀翻 Google 也是个 bet。


历史上同时做好 C 端和 B 端是比较少的。微软也是做好了 B 端,C 端没有做很好。


OpenAI 最大的风险是 base model 不够领先,别的模型公司先做出来下一个更强的 base model,很多开发者在这个 base model 上做出 super app 会抢走了 ChatGPT 的流量,现在是一个快速的技术进步周期,不能停下来。


 张小珺:xAI Grok 今天突出的能力是什么?


Guangmi Li:比较突出的是 writing 写作,但这个市场也不大。xAI 和 Twitter 合并是情理之中。之前 Grok 在产品上没一个明确基本盘,OpenAI 有了 ChatGPT 并在持续增强,Anthropic 占了 Coding 和开发者,Grok 只能先拿了 Twitter,反正都是同一个老板。


我对 xAI 的印象就是执行力超强,Infra 也很强,pre-training team 能力很强,很多朋友工作到凌晨 3-4 点是常态。Grok 3 其实不错的,也算 base model SOTA 水平,或者起码第一梯队了,也会持续训练更大的模型。


 张小珺:xAI 和 Twitter 为什么合并?在老产品里加一个 Grok,有一个新的入口?


Guangmi Li:Grok 可能缺一个产品形态,但 Twitter 也不一定是对的产品形态,毕竟是老产品。主要是为了流量。ChatGPT 可能有 6、7 亿 MAU,Twitter 有 5 个多亿 MAU,算是一个量级,但 ChatGPT 还是更大。


 张小珺:Ilya 想要做的 ASI 和 AGI 有什么差异?要实现 ASI 还需要什么?


Guangmi Li:AGI 是普通本科毕业生操作电脑,ASI 是爱因斯坦,达到大学毕业生水平和达到爱因斯坦水平是有本质区别的,实现 AGI 的确定性非常清楚了,但实现 ASI 还需要一些突破。ilya 有可能是赢在 2 年后。


AGI 强调的是通用的人类水平,ASI 强调的是领域的超级专家水平,在一个领域内能发现新知识、批量实现最强专家,自动化 SOP。ilya 想要做通用的超级专家,但超级专家是否能通用,是不是真的有 1000 万名通用的诺奖级别的爱因斯坦,这是有待验证,因为人类历史上已经很久没有真正的通才了。


ASI 可能会带来一个专业知识领域的垄断,一个领域内的顶尖专家现在能交流的对象是很少的。Deep Research 这样的 AI 产品已经成为了他们很重要的 thinking partner,当时 200 刀定价的时候,很多科学家是愿意付费的。不过 Deep Research 现在还只有信息搜集能力,ASI 能基于这些信息产生新知识或者定律的话,对一个学科或领域会产生很大的价值,甚至可能新点亮一些科技树。今天最接近 ASI 的是 AI Coding,进步速度尤其快。


 张小珺:怎么看 Mira 的新公司 Thinking Machine?


Guangmi Li:团队非常好,远强于 OpenAI 早期的样子,OpenAI 最核心的 post training team 以及最老的 Infra team 的核心都加入了 Mira。团队 Infra 和 post-training 都很强,吸引人才能力很强,Mira 很大方,听说很多人都拿了股票。


有个有趣的现象是,模型复现时间在缩短,Claude 追到 GPT-4 水平大概花了 2-3 年,Mira 这个团队估计 1 年内甚至更短时间可能就够了,但追 base model 不是他们的目标,他们还是做产品。


 张小珺:他们想做什么?Mira 之前在 OpenAI 的时候,就对发布 ChatGPT 有很大影响。


Guangmi Li:可能要做一个能打败 ChatGPT 的产品,可能是多模态版本 ChatGPT,或者 Agent 范式的 ChatGPT。Mira 这个新公司的团队几乎就是做 ChatGPT 的核心团队,OpenAI 剩下的团队是 push AGI、做智能的团队,但又分裂出一个做 O 系列的团队。


Mira 也可能代表另外一个意识形态,Mira 是很欣赏梁文锋的,她觉得 OpenAI 和 Anthropic 是美国精英思路,闭源,有一定道德约束,所以 AGI 不至于做坏事。但 Mira 可能信奉更开放的 AGI,power 应该交还给社区,听说会在 DeepSeek V3 的基础上做 post train,mid train,未来再做 pre-train,可能是走应用优先的策略,也会定期开放开源一些自己的研究。这也是组织能力下的 bet。


 张小珺:不同的战略选择背后是不同的价值观,不同的组织能力。之前我们有一期播客专门聊过 Perplexity,可以对比一下今年的 Manus 和 Perplexity 吗?


Guangmi Li:这两个都是执行力很强的团队,都被称作套壳之王。他们都是打开潘多拉魔盒的人,Manus 更明显。Manus 是一个 token 容器,能极致榨干模型智能,模型越好对 Manus 越好,Manus 非常吃模型能力,即使有更强的模型能力出来,Manus 都吃得下。


但模型越好,对 Perplexity 没那么突出增加体验。Perplexity 是抓住了两年快速成长的窗口,那两年 ChatGPT、Claude、Google 都没做好,给了 Perplexity 成长的窗口。


Manus 今天面对的竞争环境肯定是更加激烈,没有能猥琐发育的时间了,对肖弘、张涛、Peak 来说,怎么打好这张牌,要求是很高的,因为 Manus 在智能的主线上,这也是比较兴奋的,登上了全球最高水平的赛场。Manus 的火爆肯定是超预期的,建议重视 research,未来肯定要做 post train 和 RL 相关的。


 张小珺:ChatGPT 的 Deep Research 会做 Manus 吗?Deep Research 的未来是怎么样?


Guangmi Li:Deep Research 是 OpenAI Agent 的雏形,后续肯定会集成更多产品,比如 Operator、Coding 等。未来可能就是 General Agent,但有两个发展方向:一个是走向 Google,变成更高级的 Deep Search,第二是走向专业化,比如 co-scientis、co-analyst。


 张小珺:对于 Devin、Cursor、DeepSeek 产品的看法呢?


Guangmi Li:Devin 抓住了一个时间窗口,选择了提前等模型这样一个比较激进的做法。但 Devin 解决的问题容易被模型公司 cover,Devin 解决的任务类型要么是模型能力不够的时候就不 work,要么等模型变强了,Devin 也没价值了。


Cursor 目前 interface 交互价值比较大,如果智能很强了,不确定还要不要这些交互。有可能 Cursor 是个阶段性产品,模型能力提升后可能两句 prompt 就解决了。最近 Notion 做交互的首席设计师和 Midjourney 做 training 的人加入了 Cursor,他们肯定会探索新的交互形态和自己的 model training。


DeepSeek 的创新很多是在幻方量化积累了很强的 Infra 之上催生的,Infra stack 是非常 solid,真正的科学探索上的范式级的创新相对还少一些,我是比较期待 DeepSeek 出现真正的范式级创新。


 张小珺:全球范围,对 AGI 推动贡献最高的一些人是哪些?哪些人水平比较高?


Guangmi Li:贡献和水平是要分开,ilya 和 Noam 这两个人贡献最大。ilya 是神,几乎指明了今天行业在走的最核心的路线,今天可能还会沿着 ilya 指的路线继续走很长时间。ilya 在 2020 年初的时候,所有人都还在做 bert,还没出现 LLM 范式,ilya 就开始提 RL 和 pre-training 了,是非常 visionary 的。Noam 的贡献是在架构上。


其次,水平上比较高的是 Dario 和 Alec,Alec 的成就是 GPT-1。Dario 的 taste 很好,知道今年整个行业和技术走到了哪一步,如果当时不是 Dario 坚持 bet GPT-3,OpenAI 可能就会停留在 GPT-1。


之后可能是 John Schulman、Mira。


Sam 对业界贡献很大,把 hype 弄起来。Sam 是一个想象力非常大的人,帮很多人打开了想象空间,裹挟大量资源推动 AGI,researcher 有了更多的 GPU,个人待遇也好了很多。Sam 综合是很强的,但他的一些外部行为不代表真实的 OpenAI,很多可能是烟雾弹,比如他有时候发的东西不一定是主线的东西。




06.


如何构建 AGI portfolio


 张小珺:站在财务收益回报的角度,如果给你 1 亿美金或者 10 亿美金,让你今天构建一个 AGI portfolio 去全球范围内投资,按照最新的估值,假设都能投进去,你会投给哪些公司?


Guangmi Li:我会投 25% 给 Anthropic, 25% 给 Bytedance,10% 给 OpenAI,10% 给 Mira 的 Thinking Machines lab,5% 给 ilya 的 SSI,5% 给 Cursor,5% 给 Manus,另外 15% 还没想好。如果 DeepSeek 融资,我也会放基金的 25%,团队还是很强的。


有个有意思的点是,我认识的 Researcher 朋友,几乎 99% 都觉得字节好,甚至认为字节股票的上限是比 OpenAI 要更高的,这些 researcher 个人都想去买字节的股票。


字节比较低调,也是被低估的,营收和利润都非常好,2030 年 OpenAI 的营收利润肯定还远远不如字节今天的营收利润,它两个今天的估值都是 3000 亿。你是投资字节还是 OpenAI?


 张小珺:字节今天的 AI 探索不一定能让旧产品扩大 10 倍。


Guangmi Li:得看 AGI 的未来,今天的营收和利润都是走向未来的养料,OpenAI 还需要外部融资,字节可以内生赚钱,赚 1000 亿美金去投 AGI,不知道 OpenAI 未来还能不能融到 1000 亿美金。


 张小珺:为什么不是字节做出了 DeepSeek?为什么小组织更容易成功?


Guangmi Li:字节没有做出 DeepSeek 是大组织的问题,可能字节未来是一个更加灵活的组织。


组织能力非常关键。今天的 AGI 是一个科学界的探索,小组织更灵活,敢于 bet,做 AGI 有赌性是特别重要的。


 张小珺:在这个 portfolio 里,为什么 Anthropic 的钱比 OpenAI 多?


Guangmi Li:我对 Anthropic 的团队更有信心,对 pre-training base model、bet on Coding 和 Agent 更有信心。我比较看好他们的 Roadmap 和战略重点、组织能力。


最新的估值上,Anthropic 是 615 亿美金,OpenAI 是 3000 亿,Mira 的公司是 100 亿,ilya 的公司是 300 亿。


钱放在 Mira 公司比放在 ilya 公司多的原因在于,ilya 失败风险是非常高的,更科学探索,而 Mira 成功的概率是比较高的,大概率要被收购的。不管是 Apple 还是 Meta,大厂都需要一个 Mira 那样非常强的团队,并有非常好的文化和组织。


钱放在 Manus 和 Cursor 一样多是因为这是两个模型能力的表达,代表两个应用的方向,一个是 Coding Agent,一个是 tool use。


 张小珺:整体上,相比应用公司,你还是会在基础模型公司上放的钱更多。


Guangmi Li:今天是仅有的一点点时间窗口,可以去投一个 AGI 基础模型。如果 DeepSeek 开放融资,放的钱是和字节、Anthropic 一样多,都是基金上限的 25%。


 张小珺:作为一个投资人,对未来 3-5 年投资上最大的 bet 是什么?


Guangmi Li:最大的 bet 就是 AGI 带来科学的文艺复兴。具象来讲,一个是 2030 年前会有多家市值超过 $10T 的公司;第二是,从具体表现上,会有下一个 Google、Windows、Office、Meta,甚至下一个 Pfizer、Lilly。


下一个 Google 已经有雏形了,可能就是 OpenAI。Next Windows 可能就是 Claude,Claude 就是新的 Windows 或安卓。Next Office 就是接下来争夺的 Coding Agent 或者 General Agent。Next meta 还看不到。AI for science 里会有下一个 Pfizer、Lilly,也有可能 Pfizer、Lilly 未来会非常强,变成好几个 T 的公司。





07.


AGI 组织文化竞争

仅次于算力


 张小珺:在 AGI 时代,组织文化作为关键竞争力,被低估了吗?


Guangmi Li:组织和文化竞争力是仅次于算力的核心竞争力。


DeepSeek 给了很多启发,比如灵活,小团队,敢于 bet。做 AGI 要有赌性的,有限资源就得猛搞一个大 bet,OpenAI 早期的赌性就很强,组织变大后,赌的阻力很大,没办法快速下注,OpenAI 的赌性逐渐在变弱,想要的太多,核心是看一个组织敢于放弃什么。


AGI Roadmap 都是可以变的,都是在组织能力之下的,人才密度远远比人才数量重要太多。今天是 AGI 探险,每一刻都在推动智能边界,所以每个位置上的人都很关键。


 张小珺:怎么判断一个组织是不是 AGI-native? 什么是好的组织文化?


Guangmi Li:可以看有几个特点有没有做到:是不是 AGI first、Research first、Researcher first,有没有 AI 的一号位,是不是领军人物,优秀 researcher 愿不愿意加入,有没有自己的 bet 以及人才晋升机制,到底什么样的人被 value、被奖励。


团队成员的话,要年轻聪明、有想象力、有执行力,经验和资历不重要。想象力、年轻和执行力是特别重要的。


AGI 和训练模型没有那么神秘,就是做研究,是一个实验工程,但组织非常关键。大概率 25、26 年会再来几个 GPT-3.5 到 GPT-4 级别的智能跃升,很多科技公司管理层已经跟不上技术突破节奏,面对 Research 的巨大投入,很难做出判断,也选不好 AI 一号位,想豪赌都不知道怎么下注,上次和老王聊天,他说不应该再持有不 All in AGI 的科技公司了。


如果想在 AGI 时代 build the next big thing,就不要恋战今天的产品形态、商业模式、用户积累、老的组织,时代秩序在剧变,要把智能技术提升当作唯一主线,把智能本身当作最大应用,把 90 后甚至 95 后 AI 研究员纳入到核心管理层,选好 AI 一号位。


 张小珺:全球这么多公司,哪家公司能最先实现 AGI?


Guangmi Li:大概率还是 OpenAI 和 Anthropic 最早,其次是 Google 和 xAI。中国至少也有 3-4 家也能实现 AGI,字节和 DeepSeek 可能是最确定的,另外可能还有 1-2 家。


DeepSeek 就等于开源,有可能字节也会开源一些,中国走开源未尝不是一个好的路径。开源无国界,可以突破地缘的封锁。


 张小珺:硅谷对于中国 AI 的进展,态度有转变吗?怎么看中美的 AI 走势?


Guangmi Li:只要现有路径下美国实现了 AGI,中国的复现是必然。过去两年中美差距是毫无疑问地在快速缩小,很多地方基本上每 3-6 个月就能追平。中国的人才是非常强的,虽然美国世界级的顶尖科学家很多,但中国可能有几百个、几千个 Junior 一线人才,庞大的教育体系积累了非常多好的人才。


除了 DeepSeek 大家预期很高之外,我最看好字节,后面 scaling base model 还是需要非常强的 Infra 能力,字节这种大公司花很多力气做 Infra,之后价值就会体现出来。


如果 Infra 比较差,不仅仅是存在成本问题,而是没办法爬到某个高度,跑大的试验都有很多困难。比如 large scaling RL Infra,之前 pre-training 的训练框架和 RL 训练框架是分开的,未来是要融合到一起的,要在 GPU 上实现推理和训练两个状态来回切换,一边 sampling,一边 training,就会 bug 很多,挑战很大。


之所以 DeepSeek 能做好,是因为幻方 Infra 很强,只有把 Infra 做好,才能实现或者高效率做事,不然整个 Foundation 都会跟着变差。一旦 Infra 不够好,很多事情都做不好。很多 Researcher 很多的时间都浪费在 Infra debug 上,这样就会把实现的 AGI 时间拖长了。


 张小珺:中国公司里面你最喜欢谁?


Guangmi Li:对字节的预期最高,不是说模型水平追平到全球第一梯队,而是大公司要做大公司应该做的事情,中国很缺一个 DeepMind 或 Google brain 一样、具备长期 Vision、纯粹的 AI Lab,去培养人才,我希望字节有这个文化,有 Vision 和魄力拿出很大的营收来投入基础的科研,搞好 full stack 基建、Infra、去探索智能的上线。


对字节来讲再做一个抖音可能都不够兴奋了,探索智能的边界是更有意义的。大公司之前是有大公司的组织问题,只要组织理顺了,后劲非常强。字节人才密度是很高的,过去可能因为地缘比较低调。我比较期待后面能有突破智能上限的东西。


创新的基础是充裕的资本、冒险精神,还要有比较好的 Infra、文化。


 张小珺:今年对中国实现或者复现 AGI 更有信心了?


Guangmi Li:取决于两个条件,第一,是否就靠现有的 pre-training 和 RL 路线,不再需要其他路径或者 fundamental 的突破,就可以实现 AGI;第二,是否不需要几十万或百万张 GPU,可能几万张 GPU 就够了。如果这两条满足,中国也实现 AGI 的确定性是非常高的。


美国公司之所以那么烧钱,是因为很多 GPU 用作探索,探索很耗卡,加上 OpenAI 还要做大量用户服务,如果不做 服务可能不需要太多。如果纯复现,有可能 3-5 万、5-10 万张 GPU 就够了。探索花费的时间成本,会是复现的 5-10 倍。


中国团队的加速度是比美国团队更快的,国内 Junior 优秀人才的质量应该是比美国好,Devin 团队的执行力就没有 Manus 团队的执行力强。


 张小珺:硅谷创新和中国创新的特点有什么不一样?


Guangmi Li:硅谷很多 0-1 创新,是不屑于去追随或复制的,原因之一是硅谷资本特别充裕,有 500 到上千家投资机构,大家都很有钱,资本充裕是一个非常重要的创新土壤。另一个原因是具备冒险精神,中国有很多 1-100 的创新,我们把硅谷的 0-1 发扬光大。


 张小珺:在 AGI 时代,中国还会都是 1-100 的创新吗?会有更多 0-1 的创新吗?创新模式和技术会不会发生变化?


Guangmi Li:我觉得会发生变化。之所以对字节有预期,就是因为大公司要做大公司做的事,资本充裕,文化、Infra 比较好,还要有冒险精神。DeepSeek 是一个富人做出来的,没有充裕的资本是不行的。所以资本充裕是创新的前提,还有就是冒险精神。


DeepSeek 出来对字节的冲击还是有的,但这是好事,把大家拉回智能的主线上,而不是过多聚焦在豆包这个产品上。之前大家都投流做增长,今天做增长,长期看可能是有意义的,但也有可能占用了组织太多精力。


智能是主线,智能是最大的应用。即使用户量很大,未来如果有一个好 10 倍的技术,目前这些壁垒是守不住的,所以今天产品增长是不本质的。投流也不应该停止,这也是人类的探索行为,豆包应该还在增长。


 张小珺:前几天你在朋友圈写了:假设 Apple iPhone 是中国团队做出来且受中国控制,美国用户极其喜欢,美国本土造不出来,这时候地缘问题会怎么解决?你问这个问题本质是什么?


Guangmi Li:今天最大的期待或者最大的兴趣,就是在 AGI 叠加复杂的地缘乱纪元背景下,怎么做好一家 AGI-native 且全球化的跨国公司。


假设 Apple 是一家中国公司,能不能跨越地缘问题,销售到全球化市场?我觉得答案是可以的。但今天中国公司还没有一家能超越 Apple 做产品和技术的极致,我们在技术和产品上还是很大距离的。其实核心就是:把产品和技术做到极致,取得断层的领先,要把竞争对手打服。


DeepSeek 这一波很大程度上是挑战到了美国的科技霸权霸主地位,我们挺期待越来越多的“DeepSeek 时刻” 。作为年轻创业者,脑子里不用太顾虑地缘问题,就抓住做好技术和产品,地缘问题最后总是能解决的。


 张小珺:为什么一定要做全球化?


Guangmi Li:要非常激进的全球化。好的技术和产品无国界,这是领先的表现。上一代做好全球化的互联网公司是不多的。


美国过去的强大有 3 个表现:美元、美国的跨国公司、美式的意识形态,美国人觉得自己制定了近代近百年的全球秩序,是有一层优越感的。期待更多的中国创业者能做出中国原生的跨国公司。


 张小珺:华人在硅谷做投资的天花板在哪?创业的天花板在哪?


Guangmi Li:科技投资不是靠“混”能混出结果的,很多 VC 投资人到处混圈子,其实没意义,天花板很低,还是得靠“创造”,真的深入扎进去一个行业,push 到极致。


纯靠到处混,有 connection 不难,但跨越种族和文化、建立信任是很难的,很多人也去混硅谷科技圈子,其实很难混到核心圈,很难和 Sam、Dario、Arivind 建立信任,还是得自身足够牛逼,硅谷这个生态才会 value 你的价值。所以要多去想创造,不要想靠混,不然很被动,天花板很低。


做投资的天花板相对都是低的,创业做企业家的天花板更高,应该更多去做创造,我们很快就要面对或者今天已经进入了 AGI 科学的文艺复兴时代了,后续的机会是宇宙大爆发式的。


AGI 的原教旨主义是相信科学本身,上一代投资人相信产品和商业模式,但今天看产品算帐没有意义。今天的核心变化只有科学在进步这一个。


 张小珺:你觉得在新的 AGI 框架下,所有的叙事都会发生变化?


Guangmi Li:今天过早讨论太多用户需求意义不大,这是一个供给驱动的市场,手机上的需求已经被穷举过很多次了,今天的变化不在需求端,需求是可以被刺激出来的,非常多的核心变量是在供给端,比如癌症、糖尿病、肥胖症。


 张小珺:如果推演未来的 1 年,还会发生哪些变化?


Guangmi Li:变量非常多,不知道从哪里出来,今天的线性外推只是一个参考。


我预期 Claude 4 能比较显著超过今天的 GPT-4.5,base model 持续提升,大家回来卷 pre-training base model。Google Search 的份额和营收会开始根本性的被动摇,Agent 对 search 广告的影响比较大。在下一个强大的 base model 拉开差距之前,ChatGPT 流量端持续加强,每个月 1000-2000 美金的收费,甚至更贵的定价,会被更多人接受,因为它的价值在被体现。





排版:杨乐乐

延伸阅读

Physical Intelligence 创始人:人形机器人被高估了


详解 MCP:Agentic AI 中间层最优解,AI 应用的标准化革命


Flagship 创始人:AI for Science 的下一步是 Multi-Agent


Lovable:3 个月 ARR 破 1700 万美元,付费用户留存超过 ChatGPT


从 R1 到 Sonnet 3.7,Reasoning Model 首轮竞赛中有哪些关键信号?


【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

海外独角兽
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开