人工智能公司是如何靠盗版书来训练大模型的?
2025-03-24 13:45
SinoDAO
2025-03-24 13:45
订阅此专栏
收藏此文章

  //  

法院文件显示,对人工智能公司来说,“书籍实际上比网络数据更重要”。

当 Meta 的员工开始开发其旗舰人工智能模型 Llama 3 时,他们面临了一个简单的道德问题。为了与 ChatGPT 等产品竞争,该程序需要在大量高质量文本上进行训练,而合法获取所有这些文本可能需要时间。他们是否应该选择盗版呢?
Meta 的员工与多家公司就授权书籍和研究论文进行了沟通,但他们对这些选择并不满意。
一名研究科学家在公司内部聊天中写道:“这似乎太贵了”,这是针对一个潜在交易的评论,法院记录显示。Llama 团队的一名高级经理补充说,这一过程也将“极其缓慢”:“他们需要 4 周以上的时间来提供数据。”在另一份法律文件中,一名工程总监指出了这种方法的另一个缺点:“问题是人们没有意识到,如果我们授权了一本书,我们就无法利用合理使用策略”,这是对使用版权书籍训练人工智能可能的法律辩护的引用。
昨晚公布的法院文件显示,该高级经理认为,对 Meta 来说,“尽快获得书籍”是“非常重要的”,因为“书籍实际上比网络数据更重要”。Meta 的员工将注意力转向了 Library Genesis(LibGen),这是在线流传的最大的盗版图书馆之一。它目前包含超过 750 万本书籍和 8100 万篇研究论文。最终,Meta 的团队获得了“MZ”的许可——这显然是对 Meta 首席执行官马克·扎克伯格的引用来下载并使用该数据集。
这一行为以及此处概述和引用的其他信息,最近成为公开记录的一部分。这是因为在 Sarah Silverman、Junot Díaz 和其他 LibGen 书籍作者对 Meta 提起的版权侵权诉讼中,Meta 的一些内部通信被解封。
最近在另一场由类似作者群体提起的诉讼中,还揭露了 OpenAI 也曾使用过 LibGen。(Meta 的一位发言人拒绝置评,理由是针对该公司的诉讼正在进行中。在本文发表后,OpenAI 的一位发言人在回应中表示:“如今为 ChatGPT 和我们的 API 提供支持的模型并不是使用这些数据集开发的。这些数据集是由已经离开 OpenAI 的前员工创建的,最后一次使用是在 2021 年。”)
直到现在,尽管大多数人可能已经接触过使用该图书馆内容的生成式人工智能产品,但很少有人能够了解其内容。根据扎克伯格的说法,“Meta AI”助手已经被数亿人使用(它嵌入在 Meta 的产品中,如 Facebook、WhatsApp 和 Instagram)。为了展示 Meta 和 OpenAI 所使用的作品类型,我访问了 LibGen 的元数据快照,在不下载或分发书籍和研究论文本身的情况下揭示图书馆的内容,并用它创建了一个你可以在此处搜索的交互式数据库。
需要注意一些重要的注意事项。我们无法确切知道 Meta 和 OpenAI 在训练模型时使用了 LibGen 的哪些部分,以及他们可能决定排除哪些部分。此外,该数据库还在不断增长。我的 LibGen 快照是在 2025 年 1 月拍摄的,根据诉讼,这比 Meta 访问它的时间晚了一年多,因此这里的一些标题在那时可能还无法下载。
LibGen 的元数据相当混乱,其中存在许多错误。尽管我已经以各种方式清理了数据,但由于 LibGen 规模庞大且错误众多,很难修复所有问题。
尽管如此,该数据库仍然展示了 LibGen 训练模型所使用的盗版材料的惊人规模。《库乔》(Cujo)、《古拉格群岛》(The Gulag Archipelago)、琼·迪迪翁(Joan Didion)的多部作品被翻译成多种语言、一篇名为《网络末日生存指南》(Surviving a Cyberapocalypse)的学术论文——所有这些内容都在这里,还有数百万其他作品可供人工智能公司输入到他们的模型中。

Meta 和 OpenAI 都在法庭上辩称,未经许可使用版权作品训练生成式人工智能模型属于“合理使用”,因为大型语言模型(LLMs)将原始材料“转化为”新的作品。这一辩护引发了棘手的问题,距离解决可能还有很长的路要走。
然而,LibGen 的使用提出了另一个问题。批量下载通常使用 BitTorrent 完成,这种文件共享协议因匿名性而受到盗版者的欢迎,而使用 BitTorrent 下载通常涉及同时向其他用户上传。
内部通信显示,Meta 的员工确实使用了 BitTorrent 下载 LibGen,这意味着 Meta 不仅可能接触了盗版材料,还可能将其分发给其他人——根据版权法,这已被明确界定为非法行为,无论法院对使用版权材料训练生成式人工智能的决定如何。(Meta 声称其“采取了预防措施,不‘传播’任何下载的文件”,并且“没有任何事实表明”它将书籍分发给了其他人。)OpenAI 的下载方式目前尚不清楚。
Meta 的员工在其内部通信中承认,使用 LibGen 训练 Llama 存在“中高法律风险”,并讨论了各种“缓解措施”以掩盖他们的活动。一名员工建议开发人员“删除明确标记为盗版 / 被盗的数据”并“不要对外引用任何训练数据的使用,包括 LibGen”。另一名员工讨论了删除任何包含 ISBN、版权、©、保留所有权利的行。Llama 团队的一名高级经理建议对 Llama 进行微调,使其“拒绝回答‘复制《哈利·波特与魔法石》的前三页’这样的查询”。一名员工评论说,“从公司笔记本电脑上使用 BitTorrent 下载感觉不太对劲”。
很容易理解为什么 LibGen 对生成式人工智能公司具有吸引力,因为它们的产品需要大量的文本。LibGen 的规模庞大,比 Books3(我在 2023 年揭露的另一个盗版书籍收藏)大得多。
LibGen 中的其他作品包括萨莉·鲁尼(Sally Rooney)、珀西瓦尔·埃弗雷特(Percival Everett)、华·胡(Hua Hsu)、乔纳森·海特(Jonathan Haidt)和雷切尔·孔(Rachel Khong)等知名作者的最新文学作品和非虚构作品,以及来自《自然》(Nature)、《科学》(Science)和《柳叶刀》(The Lancet)等顶级学术期刊的文章。它还包括来自爱思唯尔(Elsevier)和Sage Publications等顶级学术期刊出版商的数百万篇文章。(The Atlantic)







【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

SinoDAO
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开