从「会回答」转向「能验证、会规划、可执行」。
撰文:James Dai
当 AI×Crypto 从 demo 走向产品化,一个越来越关键、但经常被低估的问题浮出水面:我们到底用什么标准,来判断一个 Agent 是否「可部署」?在加密行业,信息源分散、噪声与操纵并存,判断失误的成本往往不是「答错一道题」,而是真实的资金与安全后果。这让「评测」不再只是研究里的排名游戏,而变成整个行业能否规模化落地的分水岭。
在这样的背景下,Surf 团队提出并发布了 CAIA(Crypto AI Agent Benchmark):一套公开评测基准,目标是衡量 AI Agent 在「开放、对抗、高后果」的加密真实环境中,能否持续求真、稳定做出可核验结论。CAIA 论文《When Hallucination Costs Millions: Benchmarking AI Agents in High-Stakes Adversarial Financial Markets》已于 2025 年 9 月 30 日发布。
更重要的是,CAIA 仅仅是一个开始。团队与生态伙伴共同发起 Crypto AI Benchmark Alliance(CAIBA),希望推动面向 Crypto 场景的公开数据、可复现任务与榜单标准化,让评测成为行业共同语言,而非某个团队的私有口径。
CAIA 的出发点非常明确:很多模型在干净题库上表现亮眼,但在真实世界的开放信息流里,仍可能被误导、误用工具,最终把不确定当确定。论文提出一个评测观念的转向:不只测任务完成度,更要测在复杂多变信息环境下的「生存式求真」能力。
为此,CAIA 将每道题都做成时间锚定任务:把问题钉死到区块高度 / 时间戳,避免「事后信息」污染判断;同时要求输出能被第三方复查的验证路径。整套数据最终形成 178 个时间锚定任务,并在评测设计上强调三个连续环节:
此外,CAIA 不是「编题」,更像「策题」:论文披露其数据来自公开用户的真实需求池,再经过五个阶段数据处理清洗(自动过滤、专家评审、格式标准化、Ground Truth 验证、分类诊断)沉淀为可复现基准,并将任务划分为 六个组别用于细粒度诊断。
为了让非研究读者也能快速理解 CAIA 的题型,这里用两类典型问题做示意(CAIA 希望覆盖的正是这种「真实工作流需求」):
Tokenomics / Vesting 类
例如:$TRUMP 在 2026/1/18 将解锁多少代币?
这类问题并不是「搜一个数字」结束,而是要把结论锚定到时间点,并能追溯到可信来源与可复现计算路径(口径一致、证据链可核验)。
DeFi / Trading 数据归因类
例如:汇总 2025 年 8 月 Uniswap、Sushiswap、Curve 在以太坊与 Arbitrum 的 DEX 交易量、交易笔数与独立地址,对比谁占主导。
这类任务本质是跨链、跨源的数据对齐与口径治理:你不仅要「拿到数」,还要能说明数据从哪里来、统计口径是什么、为什么这个口径可复查、以及结论如何复现。
你可以把 CAIA 理解为:把「研究员 / 交易员 / 协议团队」的日常分析工作流,抽象成可评测、可复现、可持续更新的压力测试。
CAIA 论文对 17 个主流模型进行了评测,并给出一个非常直观、也很尖锐的结论:
更关键的是,论文指出一种结构性失败模式:tool selection catastrophe(工具选择灾难)。模型会系统性偏好「不可靠的网页搜索」,而不是能直达 source of truth 的专业链上 / 数据工具;论文在摘要中给出统计:55.5% 的工具调用落在不可靠的 web search,并且这种偏好在「正确答案其实就在权威工具里」的情况下依然存在。
这也是 CAIA 特别强调「评测要贴近部署现实」的原因:在 Crypto 这种对抗性信息环境里,真正的风险往往不是「不会算」,而是会被带偏、还以为自己有证据。
姚顺雨在《The Second Half》中写道:AI 的下半场会从「解决问题」转向「定义问题」,并指出 evaluation 会比 training 更重要。
把这句话落到 Crypto AI 上,含义非常具体:如果行业没有一套共同认可的、可复现的 benchmark 体系,「模型更强」「Agent 更聪明」就会停留在宣传层面,无法支撑安全、规模化的产品落地。
Surf 增长与产品负责人 James Dai 表示:
在 Surf 看来,Benchmark 不只是研究论文,而是产品迭代闭环:用 CAIA 暴露失败模式,再用工程化验证与工具链能力去修复,推动 Agent 从「会回答」走向「可部署」。CAIA/CAIBA 想做的,就是把「我们到底该相信什么能力」「该用什么证据证明能力」这件事,变成公开标准与可协作工程。我们会持续迭代 CAIA,推出更好、更难、也更贴近真实世界的任务来挑战 Agent。Surf 2.0 与 CAIA 2.0 都在路上很快会和大家见面!
如果你在构建 Crypto AI(无论偏研究、交易、协议、数据还是安全),CAIBA 更希望大家以「共建 benchmark 基础设施」的方式参与,而不只是跑榜:
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
