Anthropic 一条推文,引发了全球 AI 圈同仇敌忾的群嘲
2026-02-2515:45
行业观察
2026-02-25 15:45
行业观察
2026-02-25 15:45
收藏文章
订阅专栏
这场闹剧不仅戳破了 AI 版权的灰色泡沫,更暴露出巨头借维权之名行技术垄断之实的阳谋。


撰文:卡兹克

来源:数字生命卡兹克


昨天,看到了一个特别离谱的事。


特别有意思。


Anthropic(就是做 Claude 的那家公司)在官网发了一篇博客,标题起的特别正式,叫《检测和防止蒸馏攻击》。



我本来以为是啥学术报告或者新论文,点进去一看,嚯。


内容大意是说,他们发现了三家中国 AI 公司,分别是 DeepSeek、Moonshot(就是 Kimi 的母公司)和 MiniMax,对 Claude 进行了「工业规模的蒸馏攻击」。



我看到我都懵了,蒸馏攻击,我说实话,这词我第一次知道能这么组合在一起用的。


然后又说,造成了重大国家安全风险。。。



然后他们也发了一个 X,直接爆了,现在将近 3000 万的阅读。



最搞笑的是,这个评论区炸了。


不是那种底下歌舞升平,一片支持 Anthropic 维护权益的炸。


是那种,你个 Anthropic 也有碧莲说别人的炸。


一条推文,引起全网群嘲,我说实话,已经很久没有看到全世界的 AI 圈联合起来,一起群嘲,同仇敌忾的了。。。



我随手给大家贴几个看看。。。


有人说,你们不也最开始从 OpenAI 蒸馏的吗。



然后经典的梗图就出来了。。。



真的,底下一堆人骂的。




甚至还有人贴出了 Claude Sonnet 4.6 API 输出经典问题「你是什么模型」的图,然后发现,Sonnet 4.6 说自己是 DeepSeek。。。



天下模型一大蒸,你清高你别用当年蒸了 DeepSeek 的数据去训练啊。


给不太了解技术的朋友解释一下什么叫「蒸馏」。


蒸馏(Distillation)是 AI 行业一个非常常见的训练技术。


简单说,就是用一个大模型,也就是常说的教师模型的输出来训练一个小模型(也叫学生模型),让小模型能够学到大模型的一部分能力,但体积更小、运行更快、成本更低。


打个比方,你可以简单的把它理解成师傅带徒弟。


徒弟不需要重走师傅几十年的路,只要跟着师傅学,看师傅怎么处理问题,模仿师傅的思路,就能在短时间内获得不错的能力。


至于为什么叫蒸馏,这个词其实是从化学里借来的。


化学上的蒸馏是把混合物加热,让沸点低的成分先变成蒸汽,然后冷凝收集,得到更纯净的物质。


AI 里的蒸馏也是类似的意思,从一个复杂的大模型里提取出精华,灌注到一个更小的模型里。


这也是我们常说的,为啥蒸馏的模型大概率整体能力是不如被蒸馏的模型的。


你可能见过一些场景,就比如每次有新模型发布,评论区总有一堆人跑去问「你是什么模型」之类的话。


如果模型回答了「我是 GPT-XX」或者「我是 Claude XX」,马上就有人截图发帖:「你看,套壳吧。」


这个测试方法其实挺扯淡的。


套壳是你直接调用别人的 API,包一层皮就说是自己的模型,这是欺骗。


而蒸馏是你用别人的输出作为训练数据,训练出一个全新的模型。


这个模型的权重是你自己的,推理是在你自己的服务器上跑的,跟原模型可以说已经没有任何直接关系了。


所以说,蒸馏这个事,本身其实是很正常的行为。


Anthropic 自己也用蒸馏来做 Claude 的小模型,比如从 Opus 蒸馏出 Sonnet,再从 Sonnet 蒸馏出 Haiku。OpenAI 也这么干,Google 也这么干,大家都这么干。


问题在于,你蒸馏自己的模型没问题,但如果你蒸馏别人的模型,那就涉及到一个关键问题:


你获取那些训练数据的方式,合法吗?


Anthropic 说这三家中国公司创建了 24000 个假账户来大规模提取 Claude 的输出,从某种意义上讲,这确实违反了 Anthropic 它自己的服务条款。


但网友们暴动的原因也特别简单,就是你 Anthropic 有什么脸说别人?


就像马斯克说的。



2025 年 9 月,Anthropic 达成了一项历史性的和解协议,花了 15 亿美元。


这应该是美国版权诉讼史上最大的和解金额。



Anthropic 被发现从盗版网站 LibGen 和 PiLiMi 下载了超过 700 万本书,用来训练 Claude。


这些书都是有版权的,作者们没有同意,也没有拿到任何报酬。


对,你没看错,Anthropic 从盗版网站下书然后训模型。。。


这个案子的来龙去脉也挺有意思的。


2024 年的时候,三位作家,分别是惊悚小说作家 Andrea Bartz、非虚构作家 Charles Graeber 和 Kirk Wallace Johnson,这三个大神,把 Anthropic 告上了法庭。


因为他们发现自己的书被用来训练 Claude,但没人问过他们同意不同意。


后来呢,调查发现,Anthropic 不只是用了这几个人的书,它建了一个巨大的中央图书馆,目标贼离谱,是收集全世界所有的书,而且要永远保留。


收集方式也很有意思。


一部分是花钱买的,买完以后把书脊拆掉,一页一页扫描,然后销毁原书。


这个操作虽然粗暴,但咋说呢,从法律上说是合法的。


但另一部分就相当呆逼了,从 LibGen 和 PiLiMi 这些盗版网站上下载。


LibGen 是全球最大的盗版电子书网站,被各国执法机构围追堵截了好几轮,但一直死而不僵。


Anthropic 在 2021 年 6 月从 LibGen 下载了大约 500 万本书,2022 年 7 月又从 PiLiMi 下载了大约 200 万本。


法官 William Alsup 在判决中说了一句很精彩的话:


「你不能仅仅因为声称自己有研究目的,就去拿走任何你想要的教科书。」


有意思的是,法官同时做出了两个判决:


第一,用合法购买的书籍来训练 AI 模型,属于合理使用,不构成侵权。这个判决对 AI 行业其实是一个利好消息。


法官说这种使用是「我们这辈子能看到的最具变革性的使用之一」,因为 AI 模型学习的是模式和规律,不是要复制或取代原作。


第二,用盗版书籍来训练 AI 模型,不属于合理使用,构成侵权,这是 Anthropic 输掉的部分。


法官原话是:「盗版本身就是侵权,不可救药的侵权,不管你拿盗版的东西去做什么。」


所以从这个判决上,能看出来美国那边司法的态度,就是训练 AI 本身可以是合法的,但你获取数据的方式必须合法。


按照美国版权法,故意侵权的赔偿金可以高达每部作品 15 万美元,50 万本书乘以 15 万美元,那就是 750 亿美元。当然不可能真赔这么多,但 Anthropic 面临的风险确实也是没法整的级别。


所以它选择了和解,赔了 15 亿美元,大约是每本书 3000 美元。



但其实这还没完。


2026 年 1 月,音乐出版商们又对 Anthropic 提起了新的诉讼,指控它通过 BitTorrent 下载了超过 2 万首歌曲来训练 Claude,涉及的歌曲包括「Wild Horses」、「Sweet Caroline」、「Bennie and the Jets」、「Eye of the Tiger」这些经典名曲。


这个案子目前还在审理中,索赔金额据说高达 30 亿美元。


所以你看,什么叫双标。


这就是双标。


Anthropic 一边在说中国公司偷它的模型输出,一边自己在用盗版书籍和歌曲训练模型。


所以啊。。。



说实话,这件事吃完瓜也就算了。


但是,有一个点,我其实还想聊一聊。


就是在 AI 时代,「偷」这个字,到底意味着什么。


因为我自己是做 UI 出身的,所以呢,UI 圈子里,之前一直有一个很经典的故事。


当年苹果的 Mac 之所以能有革命性的图形用户界面,也就是 GUI,是因为乔布斯参观了施乐的帕洛阿尔托研究中心(PARC),看到了他们开发的图形界面原型,然后就「借鉴」了过来。



施乐的工程师们气得要死,但也没办法。


后来微软的 Windows 出来了,界面跟 Mac 长得很像。


乔布斯暴跳如雷,说比尔盖茨偷了苹果的东西。


比尔盖茨的回应贼经典:


「我们都有一个有钱的邻居叫施乐,我闯进他家想偷电视,结果发现你已经偷走了。」


传统意义上的偷,是你拿走了东西,别人就没有了,你偷了我的钱包,我的钱包就不见了,这是一个零和游戏。


但数据不一样,我复制了你的数据,你的数据还在那儿,没有减少一个字节。


从物理意义上说,什么都没有丢。


所以,这就引出了一个非常老的问题。


知识产权到底是不是一种真正的财产?


有一派观点认为,知识产权是人类社会为了激励创新而人为创造的制度,本质上是一种垄断权。


托马斯杰斐逊之前说过一句话,大概意思就是,思想就像火焰,我用你的火点燃我的蜡烛,你的火不会变小。


如果按这个逻辑,「偷」知识产权这个说法本身就是有问题的,因为你并没有拿走任何东西。


但另一派观点认为,创作者付出了时间、精力和天赋来创造作品,他们理应获得回报。


如果任何人都可以免费使用他们的作品,那谁还愿意创作?从这个角度说,「偷」知识产权就是偷走了创作者本应获得的收益。


这两种观点坦诚的讲,我自己作为一个创作者,我认为都有道理,人类争论了几百年也没有定论。


但 AI 的出现把这个问题推到了一个新的极端。


有人可能会说,那不还是侵犯了版权吗?没错,但这里面有一个很微妙的悖论。


AI 公司用盗版书籍训练模型,这是违法。


AI 公司用合法购买的书籍训练模型,这是合法。


有人用 AI 公司的模型输出训练自己的模型,违反服务条款。


有一个很老的笑话:


一个人偷了另一个人的钱包,然后钱包又被第三个人偷走了。第一个小偷报警说自己的钱包被偷了,警察问他:「你自己的钱包???」


19 世纪的美国,是全球最大的盗版国家。当时美国不承认外国作品的版权,英国作家的书在美国被疯狂盗印,狄更斯每次访问美国都要骂一通。美国出版商就非常理直气壮,说,知识应该属于全人类,凭什么要付钱给英国人?


后来美国自己的文化产业发展起来了,好莱坞成了全球电影中心,美国突然就变成了全世界最积极的知识产权捍卫者。


历史总是惊人地相似。


我不是说谁对谁错,我只是觉得这种我可以你不行的态度,确实也挺抽象的。


坦率的讲,AI 行业现在面临的版权问题,其实是整个技术史上反复出现的老问题的新版本。


印刷机发明的时候,手抄圣经的修士们抗议过,录音技术发明的时候,现场音乐家们抗议过,录像机发明的时候,好莱坞抗议过。


每一次,都有人说新技术会毁掉创作者。


但每一次,最后都找到了某种平衡。


但这次的新问题在于。


AI 不只是复制和分发内容,它也在学习如何创造新内容。


这就触及到了另一个更根本的问题,人类的创造力本身是可以被复制的吗?


我自己写公众号三年多了,说实话,我写的每一篇文章,都是我读过的所有书、看过的所有电影、聊过的所有天的某种「蒸馏」。


我没有付钱给每一个影响过我的作者和创作者。


但没人会说我「偷」了他们。


因为我是人类,学习和创作是人类的基本权利。


那 AI 呢,AI 学习人类的作品,创造新的内容,这算「偷」吗?


这就像望远镜之于人眼。


望远镜让人类能看到肉眼看不到的东西,但我们不会说望远镜偷了星星的光。


AI 让人类能处理和学习肉脑处理不了的信息量,那我们为什么要说 AI 偷了数据呢?


当然,这个类比也不完美。望远镜不会直接输出跟星星一模一样的东西,但 AI 有时候会输出跟训练数据很像的内容。


乱糟糟的说了这么多,有点乱。


但我想表达的是,关于 AI 和版权的争论,不应该简化成「偷」或「不偷」的二元对立。


这里面有太多的灰色地带,需要法律、伦理、技术等多个领域的专家一起来讨论。


而某些公司打着保护版权的旗号,更需要警惕一下。


如果只有少数几家公司可以训练大模型,而且这些公司还都在美国,那对全世界的其他国家来说,意味着什么?


这个问题。


答案我相信大家都懂。

【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

专栏文章
查看更多
数据请求中

推荐专栏

数据请求中

一起「遇见」未来

DOWNLOAD FORESIGHT NEWS APP

Download QR Code