CAIA:把 Crypto AI Agent 拉回真实世界评测
2026-01-0512:41
市场动态
2026-01-05 12:41
市场动态
2026-01-05 12:41
收藏文章
订阅专栏
从「会回答」转向「能验证、会规划、可执行」。


撰文:James Dai


当 AI×Crypto 从 demo 走向产品化,一个越来越关键、但经常被低估的问题浮出水面:我们到底用什么标准,来判断一个 Agent 是否「可部署」?在加密行业,信息源分散、噪声与操纵并存,判断失误的成本往往不是「答错一道题」,而是真实的资金与安全后果。这让「评测」不再只是研究里的排名游戏,而变成整个行业能否规模化落地的分水岭。


在这样的背景下,Surf 团队提出并发布了 CAIA(Crypto AI Agent Benchmark):一套公开评测基准,目标是衡量 AI Agent 在「开放、对抗、高后果」的加密真实环境中,能否持续求真、稳定做出可核验结论。CAIA 论文《When Hallucination Costs Millions: Benchmarking AI Agents in High-Stakes Adversarial Financial Markets》已于 2025 年 9 月 30 日发布。


更重要的是,CAIA 仅仅是一个开始。团队与生态伙伴共同发起 Crypto AI Benchmark Alliance(CAIBA),希望推动面向 Crypto 场景的公开数据、可复现任务与榜单标准化,让评测成为行业共同语言,而非某个团队的私有口径。


CAIA 在测什么:从「会回答」转向「能验证、会规划、可执行」


CAIA 的出发点非常明确:很多模型在干净题库上表现亮眼,但在真实世界的开放信息流里,仍可能被误导、误用工具,最终把不确定当确定。论文提出一个评测观念的转向:不只测任务完成度,更要测在复杂多变信息环境下的「生存式求真」能力。


为此,CAIA 将每道题都做成时间锚定任务:把问题钉死到区块高度 / 时间戳,避免「事后信息」污染判断;同时要求输出能被第三方复查的验证路径。整套数据最终形成 178 个时间锚定任务,并在评测设计上强调三个连续环节:


  • Knowledge:概念与机制的真实理解(不是背定义)
  • Planning:能否把问题拆解成可执行工作流,并做正确的工具选择与排序
  • Action:调用生产级工具与数据源完成验证(如 Etherscan、CoinGecko、TokenTerminal 等


此外,CAIA 不是「编题」,更像「策题」:论文披露其数据来自公开用户的真实需求池,再经过五个阶段数据处理清洗(自动过滤、专家评审、格式标准化、Ground Truth 验证、分类诊断)沉淀为可复现基准,并将任务划分为 六个组别用于细粒度诊断。


两个「题型示意」:它更像工作流压力测试,而不是问答


为了让非研究读者也能快速理解 CAIA 的题型,这里用两类典型问题做示意(CAIA 希望覆盖的正是这种「真实工作流需求」):


Tokenomics / Vesting 类


例如:$TRUMP 在 2026/1/18 将解锁多少代币?


这类问题并不是「搜一个数字」结束,而是要把结论锚定到时间点,并能追溯到可信来源与可复现计算路径(口径一致、证据链可核验)。


DeFi / Trading 数据归因类


例如:汇总 2025 年 8 月 Uniswap、Sushiswap、Curve 在以太坊与 Arbitrum 的 DEX 交易量、交易笔数与独立地址,对比谁占主导。

这类任务本质是跨链、跨源的数据对齐与口径治理:你不仅要「拿到数」,还要能说明数据从哪里来、统计口径是什么、为什么这个口径可复查、以及结论如何复现。


你可以把 CAIA 理解为:把「研究员 / 交易员 / 协议团队」的日常分析工作流,抽象成可评测、可复现、可持续更新的压力测试。


评测揭示的短板:给足工具也不够,关键败在「工具选择」


CAIA 论文对 17 个主流模型进行了评测,并给出一个非常直观、也很尖锐的结论:


  • 在 无工具条件下,模型准确率只有 12%–28%;
  • 在 有工具条件下,表现显著提升,但最好也仅到 67.4%(GPT-5),仍低于 80% 的初级人类分析师基线。


更关键的是,论文指出一种结构性失败模式:tool selection catastrophe(工具选择灾难)。模型会系统性偏好「不可靠的网页搜索」,而不是能直达 source of truth 的专业链上 / 数据工具;论文在摘要中给出统计:55.5% 的工具调用落在不可靠的 web search,并且这种偏好在「正确答案其实就在权威工具里」的情况下依然存在。


这也是 CAIA 特别强调「评测要贴近部署现实」的原因:在 Crypto 这种对抗性信息环境里,真正的风险往往不是「不会算」,而是会被带偏、还以为自己有证据。


为什么 Benchmarking 会成为 AI×Crypto 的分水岭


姚顺雨在《The Second Half》中写道:AI 的下半场会从「解决问题」转向「定义问题」,并指出 evaluation 会比 training 更重要。


把这句话落到 Crypto AI 上,含义非常具体:如果行业没有一套共同认可的、可复现的 benchmark 体系,「模型更强」「Agent 更聪明」就会停留在宣传层面,无法支撑安全、规模化的产品落地。


Surf 增长与产品负责人 James Dai 表示:


在 Surf 看来,Benchmark 不只是研究论文,而是产品迭代闭环:用 CAIA 暴露失败模式,再用工程化验证与工具链能力去修复,推动 Agent 从「会回答」走向「可部署」。CAIA/CAIBA 想做的,就是把「我们到底该相信什么能力」「该用什么证据证明能力」这件事,变成公开标准与可协作工程。我们会持续迭代 CAIA,推出更好、更难、也更贴近真实世界的任务来挑战 Agent。Surf 2.0 与 CAIA 2.0 都在路上很快会和大家见面!


把 Crypto AI Benchmark 做成行业基础设施


如果你在构建 Crypto AI(无论偏研究、交易、协议、数据还是安全),CAIBA 更希望大家以「共建 benchmark 基础设施」的方式参与,而不只是跑榜:


  • Benchmark 设计贡献:围绕不同场景定义评测维度与任务形态(例如 trading 相关、protocol research 相关、security/anti-scam 相关、execution/workflow 相关等),把「行业真实需求」变成可评测任务。
  • 题库与数据支持:贡献可公开或可受控共享的数据源、口径定义、以及能作为 Ground Truth 的验证链(让每个结论都可复现、可审计)。
  • 工具链与评测工程:贡献评测 harness、对抗 / 污染控制方案、以及可扩展的任务更新机制(让 benchmark 保持「活性」,持续逼近真实世界变化)。

【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

专栏文章
查看更多
数据请求中

推荐专栏

数据请求中
在 App 打开