CAIA：把 Crypto AI Agent 拉回真实世界评测

2026-01-0512:41

市场动态

2026-01-05 12:41

市场动态

2026-01-05 12:41

收藏文章

订阅专栏

从「会回答」转向「能验证、会规划、可执行」。

撰文：James Dai

当 AI×Crypto 从 demo 走向产品化，一个越来越关键、但经常被低估的问题浮出水面：我们到底用什么标准，来判断一个 Agent 是否「可部署」？在加密行业，信息源分散、噪声与操纵并存，判断失误的成本往往不是「答错一道题」，而是真实的资金与安全后果。这让「评测」不再只是研究里的排名游戏，而变成整个行业能否规模化落地的分水岭。

在这样的背景下，Surf 团队提出并发布了 CAIA（Crypto AI Agent Benchmark）：一套公开评测基准，目标是衡量 AI Agent 在「开放、对抗、高后果」的加密真实环境中，能否持续求真、稳定做出可核验结论。CAIA 论文《When Hallucination Costs Millions: Benchmarking AI Agents in High-Stakes Adversarial Financial Markets》已于 2025 年 9 月 30 日发布。

更重要的是，CAIA 仅仅是一个开始。团队与生态伙伴共同发起 Crypto AI Benchmark Alliance（CAIBA），希望推动面向 Crypto 场景的公开数据、可复现任务与榜单标准化，让评测成为行业共同语言，而非某个团队的私有口径。

CAIA 在测什么：从「会回答」转向「能验证、会规划、可执行」

CAIA 的出发点非常明确：很多模型在干净题库上表现亮眼，但在真实世界的开放信息流里，仍可能被误导、误用工具，最终把不确定当确定。论文提出一个评测观念的转向：不只测任务完成度，更要测在复杂多变信息环境下的「生存式求真」能力。

为此，CAIA 将每道题都做成时间锚定任务：把问题钉死到区块高度 / 时间戳，避免「事后信息」污染判断；同时要求输出能被第三方复查的验证路径。整套数据最终形成 178 个时间锚定任务，并在评测设计上强调三个连续环节：

Knowledge：概念与机制的真实理解（不是背定义）
Planning：能否把问题拆解成可执行工作流，并做正确的工具选择与排序
Action：调用生产级工具与数据源完成验证（如 Etherscan、CoinGecko、TokenTerminal 等

此外，CAIA 不是「编题」，更像「策题」：论文披露其数据来自公开用户的真实需求池，再经过五个阶段数据处理清洗（自动过滤、专家评审、格式标准化、Ground Truth 验证、分类诊断）沉淀为可复现基准，并将任务划分为六个组别用于细粒度诊断。

两个「题型示意」：它更像工作流压力测试，而不是问答

为了让非研究读者也能快速理解 CAIA 的题型，这里用两类典型问题做示意（CAIA 希望覆盖的正是这种「真实工作流需求」）：

Tokenomics / Vesting 类

例如：$TRUMP 在 2026/1/18 将解锁多少代币？

这类问题并不是「搜一个数字」结束，而是要把结论锚定到时间点，并能追溯到可信来源与可复现计算路径（口径一致、证据链可核验）。

DeFi / Trading 数据归因类

例如：汇总 2025 年 8 月 Uniswap、Sushiswap、Curve 在以太坊与 Arbitrum 的 DEX 交易量、交易笔数与独立地址，对比谁占主导。

这类任务本质是跨链、跨源的数据对齐与口径治理：你不仅要「拿到数」，还要能说明数据从哪里来、统计口径是什么、为什么这个口径可复查、以及结论如何复现。

你可以把 CAIA 理解为：把「研究员 / 交易员 / 协议团队」的日常分析工作流，抽象成可评测、可复现、可持续更新的压力测试。

评测揭示的短板：给足工具也不够，关键败在「工具选择」

CAIA 论文对 17 个主流模型进行了评测，并给出一个非常直观、也很尖锐的结论：

在无工具条件下，模型准确率只有 12%–28%；
在有工具条件下，表现显著提升，但最好也仅到 67.4%（GPT-5），仍低于 80% 的初级人类分析师基线。

更关键的是，论文指出一种结构性失败模式：tool selection catastrophe（工具选择灾难）。模型会系统性偏好「不可靠的网页搜索」，而不是能直达 source of truth 的专业链上 / 数据工具；论文在摘要中给出统计：55.5% 的工具调用落在不可靠的 web search，并且这种偏好在「正确答案其实就在权威工具里」的情况下依然存在。

这也是 CAIA 特别强调「评测要贴近部署现实」的原因：在 Crypto 这种对抗性信息环境里，真正的风险往往不是「不会算」，而是会被带偏、还以为自己有证据。

为什么 Benchmarking 会成为 AI×Crypto 的分水岭

姚顺雨在《The Second Half》中写道：AI 的下半场会从「解决问题」转向「定义问题」，并指出 evaluation 会比 training 更重要。

把这句话落到 Crypto AI 上，含义非常具体：如果行业没有一套共同认可的、可复现的 benchmark 体系，「模型更强」「Agent 更聪明」就会停留在宣传层面，无法支撑安全、规模化的产品落地。

Surf 增长与产品负责人 James Dai 表示：

在 Surf 看来，Benchmark 不只是研究论文，而是产品迭代闭环：用 CAIA 暴露失败模式，再用工程化验证与工具链能力去修复，推动 Agent 从「会回答」走向「可部署」。CAIA/CAIBA 想做的，就是把「我们到底该相信什么能力」「该用什么证据证明能力」这件事，变成公开标准与可协作工程。我们会持续迭代 CAIA，推出更好、更难、也更贴近真实世界的任务来挑战 Agent。Surf 2.0 与 CAIA 2.0 都在路上很快会和大家见面！

把 Crypto AI Benchmark 做成行业基础设施

如果你在构建 Crypto AI（无论偏研究、交易、协议、数据还是安全），CAIBA 更希望大家以「共建 benchmark 基础设施」的方式参与，而不只是跑榜：

Benchmark 设计贡献：围绕不同场景定义评测维度与任务形态（例如 trading 相关、protocol research 相关、security/anti-scam 相关、execution/workflow 相关等），把「行业真实需求」变成可评测任务。
题库与数据支持：贡献可公开或可受控共享的数据源、口径定义、以及能作为 Ground Truth 的验证链（让每个结论都可复现、可审计）。
工具链与评测工程：贡献评测 harness、对抗 / 污染控制方案、以及可扩展的任务更新机制（让 benchmark 保持「活性」，持续逼近真实世界变化）。

【免责声明】市场有风险，投资需谨慎。本文不构成投资建议，用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

数据请求中

一起「遇见」未来

DOWNLOAD FORESIGHT NEWS APP

App Store

Android