下一代 LLMs( 大型语言模型）- GAI 的潜在问题和发展趋势

2023-02-15 23:28

来源链接

订阅此专栏

收藏此文章

如果你还没有听说，人工智能是热门的新事物。最近，从硅谷到达沃斯，生成性人工智能似乎是每个风险资本家、企业家、财富 500 强的首席执行官和记者都在谈论的话题。对于那些在 2022 年开始真正关注人工智能的人来说，像 ChatGPT 和 Stable Diffusion 这样的技术似乎是凭空出现的，在世界范围内掀起了风暴。他们没有。

早在 2020 年，我们就在本专栏中写了一篇文章，预测生成性人工智能将成为下一代人工智能的支柱之一。至少从 2019 年发布 GPT-2以来，在该领域工作的人都清楚，生成性语言模型已经准备好释放巨大的经济和社会变革。同样，虽然文本 - 图像模型在去年夏天才引起公众的注意，但自从 OpenAI 在 2021 年 1 月发布原始的DALL-E以来，该技术的上升似乎是不可避免的。( 我们在原始 DALL-E 发布几天后写了一篇文章提出了这个论点）。

出于同样的原因，重要的是要记住，目前的人工智能技术水平远远不是人工智能能力的最终状态。相反，人工智能的前沿领域从未像现在这样迅速发展。尽管 ChatGPT 目前在我们看来很神奇，但它只是通往下一步的垫脚石。

下一代大型语言模型（LLMs）会是什么样子？这个问题的答案已经出来了，此刻正在人工智能初创公司和研究小组中进行开发。本文强调了三个新兴领域，它们将帮助定义生成性人工智能和 LLMs 的下一波创新。对于那些希望在这个快速变化的世界中保持领先的人来说，请继续阅读。

1）能够产生自己的训练数据以提高自己的模型。

考虑一下人类如何思考和学习。我们从外部信息来源收集知识和观点 -- 例如，通过阅读一本书。但我们也会通过反思一个话题或在脑海中思考一个问题，自己产生新的想法和见解。我们能够通过与任何新的外部输入没有直接联系的内部反思和分析来加深我们对世界的理解。人工智能研究的一个新途径旨在使大型语言模型能够做类似的事情，有效地引导它们自己的智能。

作为训练的一部分，今天的 LLMs 摄取了世界上许多积累的书面信息（例如，维基百科、书籍、新闻报道）。如果这些模型一旦接受了训练，就可以利用它们从这些来源吸收的所有知识来产生新的书面内容 -- 然后将这些内容作为额外的训练数据，以提高自己的水平，那会怎么样？最初的工作表明，这种方法可能是可行的，而且是强大的。

在最近一项名为 "大型语言模型可以自我改进 "的研究工作中，一组谷歌研究人员建立了一个 LLM，它可以提出一组问题，生成这些问题的详细答案，过滤自己的答案以获得最优质的输出，然后对策划的答案进行自我微调。值得注意的是，这导致了在各种语言任务上新的最先进的性能。例如，该模型在 GSM8K 上的表现从 74.2% 提高到 82.1%，在 DROP 上的表现从 78.2% 提高到 83.0%，这是两个用于评估 LLM 性能的流行基准。

最近的另一项工作是建立在一种重要的 LLM 方法之上的，即 "指令微调"，它是ChatGPT 等产品的核心。ChatGPT 和其他指令微调模型依赖于人类编写的指令，而这个研究小组建立了一个模型，可以生成自己的自然语言指令，然后根据这些指令进行自我微调。性能的提升是巨大的：这种方法将基础 GPT-3 模型的性能提高了 33%，几乎与 OpenAI 自己的指令微调模型的性能相匹配。

在一项主题相关的工作中，来自谷歌和卡耐基梅隆大学的研究人员表明，如果一个大型语言模型在遇到问题时，在回答之前先向自己背诵它对该主题的了解，它就会提供更准确和复杂的回答。这可以粗略地比喻为一个人在谈话中，在分享观点之前，不是突然想到一个话题，而是搜索她的记忆并反思她的信念。

当人们第一次听到这个研究方向时，往往会产生一个概念上的异议 -- 这不都是循环吗？一个模型如何能产生数据，然后模型又能消费这些数据来改进自己？如果新的数据首先来自于模型，那么它所包含的 "知识 "或 "信号 "不应该已经被纳入到模型中吗？

如果我们把大型语言模型设想成数据库，存储来自其训练数据的信息，并在提示时以不同的组合方式再现，那么这种反对意见是有道理的。但是 -- 虽然听起来很不舒服，甚至很奇怪 -- 我们最好还是按照人脑的思路来设想大型语言模型（不，这个比喻当然不完美！）。

我们人类从世界上摄取了大量的数据，这些数据以不可估量的、无数的方式改变了我们大脑中的神经连接。通过内省、写作、谈话 -- 有时只是睡个好觉 -- 我们的大脑就能产生新的见解，而这些见解以前既不在我们的头脑中，也不在世界的任何信息源中。如果我们把这些新的见解内化，它们可以使我们变得更聪明。

鉴于世界上的文本训练数据可能很快就会耗尽，LLMs 能够产生自己的训练数据的想法就显得尤为重要。这还不是一个被广泛重视的问题，但这是许多人工智能研究人员担心的问题。

根据一项估计，世界上可用文本数据的总存量在 4.6 万亿至 17.2 万亿个符号之间。这包括世界上所有的书籍，所有的科学论文，所有的新闻文章，所有的维基百科，所有公开的代码，以及互联网的大部分其他内容，经过质量过滤（例如，网页，博客，社交媒体）。最近的另一个估计是，总数字为 3.2 万亿个 token。DeepMind 的 Chinchilla，当今领先的 LLM 之一，是在 1.4 万亿个 tokens 上训练的。换句话说，我们可能离用尽世界上所有有用的语言训练数据还差一个数量级。

如果大型语言模型能够产生自己的训练数据，并使用它来继续自我改进，这可能会使迫在眉睫的数据短缺变得不重要。这将代表着 LLMs 的一个令人震惊的飞跃。

2）可以自我检查的模型。

最近一种流行的说法是，ChatGPT 和类似的对话式法学硕士即将取代谷歌搜索，成为世界上最重要的信息来源，颠覆这个曾经强大的科技巨头，就像 Blockbuster 或 Kodak 之前被颠覆一样。

这种说法严重地过度简化了事情。今天存在的 LLMs 永远不会取代谷歌搜索。为什么不会呢？简而言之，因为今天的 LLMs 在编造东西。尽管它们很强大，但大型语言模型经常会产生不准确的、误导性的或虚假的信息（并自信地、令人信服地展示它）。

ChatGPT 的 "幻觉"（这些错误陈述被称为）的例子比比皆是。这并不是要单独指出 ChatGPT；今天存在的每一个生成语言模型都以类似的方式产生了幻觉。举几个例子：它推荐不存在的书籍；它坚持认为数字 220 小于 200；它不确定亚伯拉罕 - 林肯的刺客在遇刺时是否与林肯在同一个大陆；它对贝叶斯定理等概念提供了听起来合理但不正确的解释。

大多数用户不会接受一个在某些时候会弄错这些基本事实的搜索引擎；即使是 99% 的准确性也不足以让市场广泛采用。OpenAI 首席执行官 Sam Altman 自己也承认这一点，他最近告诫说。"ChatGPT 的局限性令人难以置信，但在某些方面的表现却足以让人误以为它是伟大的。现在依靠它来做任何重要的事情都是一个错误。"

LLMs 的幻觉问题是否可以通过对现有架构的渐进式改进来解决，或者是否需要对人工智能方法进行更根本的范式转变，以赋予人工智能常识和真正的理解，这是一个开放的问题。深度学习先驱Yann LeCun 就认为是后者。LeCun 的反面观点可能被证明是正确的；时间会告诉我们。

不过，从近期来看，一系列有希望的创新至少可以减轻 LLMs 的事实不可靠程度。这些新方法将在为 LLM 在现实世界的广泛部署做准备时发挥重要作用。

两个相关的能力是目前使语言模型更准确的努力的核心：（1）LLMs 从外部来源检索信息的能力，以及（2）LLMs 为他们提供的信息提供参考和引用的能力。

ChatGPT 仅限于其内部已经存储的信息，这些信息被记录在其静态权重中。( 这就是为什么它不能讨论 2021 年后发生的事件，即模型被训练的时候）。能够从外部来源获取信息将使 LLM 获得最准确和最新的信息，即使这些信息经常变化（例如，公司的股票价格）。

当然，获得外部信息源本身并不能保证法律硕士能够检索到最准确和最相关的信息。LLMs 增加透明度和对人类用户的信任的一个重要方法是包括对他们检索信息的来源的引用。这种引用允许人类用户根据需要对信息源进行审核，以便自己决定其可靠性。

这一领域重要的早期工作包括像REALM（来自谷歌）和RAG（来自 Facebook）这样的模型，两者都发表于 2020 年。随着近几个月对话式 LLM 的兴起，这一领域的研究现在正在迅速加速。

去年，OpenAI 发布了其 GPT 模型的微调版本，名为WebGPT，可以使用微软必应浏览互联网，以便对提示做出更准确和深入的回应。WebGPT 像人类一样浏览互联网：它可以向 Bing 提交搜索查询，跟踪链接，在网页上上下滚动，并使用 Ctrl+F 等功能来查找术语。当模型在互联网上找到相关信息并将其纳入输出时，它会提供引证，以便人类用户可以看到信息的来源。结果是令人鼓舞的：对于同一个查询，WebGPT 的回答有 56% 的时间比人类写的回答更受欢迎，69% 的时间比 Reddit 上评价最高的回答更受欢迎。

DeepMind 也在沿着这些思路进行研究。几个月前，DeepMind 发布了一个名为Sparrow的新模型。与 ChatGPT 一样，Sparrow 是基于对话的；与 WebGPT 一样，它可以在互联网上搜索信息，并为其论断提供引证。Sparrow 建立在 DeepMind 早期重要工作的基础上，包括SpaLM、RETRO和GopherCite。

DeepMind 的 Sparrow 模型在运行。如图所示，Sparrow 提供报价和链接来支持 ... [+]SOURCE: DEEPMIND

DeepMind 的研究人员发现，Sparrow 的引用有 78% 的时间是有帮助和准确的，这既表明这种研究方法是有希望的，也表明 LLM 不准确的问题远远没有得到解决。包括 You.com 和 Perplexity 在内的年轻创业公司最近也推出了以 LLM 为动力的对话式搜索界面，能够从外部来源检索信息并引用参考文献。这些产品今天已经可以供公众使用。

LLMs 最大的缺点是它们的不可靠，它们顽固地倾向于自信地提供不准确的信息。语言模型有望重塑我们经济的每一个部门，但在这个问题得到解决之前，它们将永远无法发挥其全部潜力。预计在未来的几个月里，将看到这个领域的大量活动和创新。

3) 大规模稀疏专家模型。

今天最突出的大型语言模型都具有有效的相同架构。Meta AI 负责人 Yann LeCun最近说："就基础技术而言，ChatGPT 不是特别创新。它没有什么革命性的，尽管公众是这样认为的。只是，你知道，它被很好地组合在一起，做得很好。"

LeCun 的声明激起了大量的争议和推特辩论。但简单的事实是，他是正确的，没有一个严肃的人工智能研究者会提出异议。

今天所有著名的语言模型 -- 例如 OpenAI 的GPT-3，谷歌的PaLM或LaMDA，Meta 的Galactica或OPT，Nvidia/ 微软的Megatron-Turing，AI21 实验室的Jurassic-1，都是以同样的基本方式建立的。它们是自回归的、自我监督的、预训练的、密集激活的基于 Transformer 的模型。

可以肯定的是，这些模型之间存在着差异：它们的大小（参数数）、它们的训练数据、使用的优化算法、批次大小、隐藏层的数量、它们是否被指导微调，等等。这些变化可以转化为有意义的性能差异。不过，核心架构的变化不大。然而，一种令人感兴趣的不同的语言模型架构方法，即稀疏专家模型的背后，正在形成势头。虽然这个想法已经存在了几十年，但它最近才重新出现并开始流行起来。

上面提到的所有模型都是密集型的。这意味着，每次模型运行时，它的每一个参数都会被使用。例如，每次你向 GPT-3 提交提示时，模型的所有 1750 亿个参数都被激活，以产生其反应。

但是，如果一个模型能够只调用其最相关的参数子集，以回应一个给定的查询，那会怎样呢？这就是稀疏专家模型的基本概念。稀疏模型的决定性特征是，它们不会为给定的输入激活所有的参数，而只是激活那些有助于处理输入的参数。因此，模型的稀疏性将一个模型的总参数数与它的计算要求解耦。这导致了稀疏专家模型的关键优势：它们既可以比密集模型大，又可以比密集模型的计算要求低。

为什么它们被称为稀疏专家模型？因为稀疏模型可以被认为是由作为不同主题专家的 "子模型 "的集合组成。根据提交给模型的提示，模型内最相关的专家被激活，而其他专家则保持不活动。例如，一个用俄语提出的提示，将只激活模型中能够理解和回应俄语的 "专家"，而有效地绕过模型的其他部分。

今天所有最大的 LLM 都是稀疏的。如果你遇到一个有超过 1 万亿个参数的 LLM，你可以安全地认为它是稀疏的。这包括谷歌的Switch Transformer（1.6 万亿个参数），谷歌的GLaM（1.2 万亿个参数）和 Meta 的Mixture of Experts 模型（1.1 万亿个参数）。

Mikel Artetxe 说："最近人工智能的大部分进展来自于训练越来越大的模型，"他在辞职去共同创办一家隐形的 LLM 创业公司之前，领导了 Meta 的稀疏模型研究。"例如，GPT-3 比 GPT-2 大 100 多倍。但是，当我们把密集模型的大小增加一倍时，我们也会使它的速度增加一倍。稀疏模型使我们能够训练更大的模型而不增加运行时间。"最近关于稀疏专家模型的研究表明，这种架构具有巨大的潜力。

GLaM 是谷歌去年开发的一个稀疏专家模型，比 GPT-3 大 7 倍，训练所需能量减少三分之二，推理所需计算量减少一半，并在广泛的自然语言任务中胜过 GPT-3。Meta 公司在稀疏模型方面的类似工作也取得了类似的可喜成果。

正如 Meta 的研究人员所总结的。"我们发现，稀疏模型能够以很小的计算量实现与密集模型相似的下游任务性能。对于具有相对适度的计算预算的模型，稀疏模型的性能可以与需要几乎四倍计算量的密集模型相媲美。" 稀疏专家模型还有一个值得一提的好处：它们比密集模型更具可解释性。

可解释性 -- 人类理解一个模型为什么采取它所做的行动的能力 -- 是今天人工智能的最大弱点之一。一般来说，今天的神经网络是无法解释的 "黑盒子"。这可能会限制它们在现实世界中的作用，特别是在像医疗保健这样的高风险环境中，人类的审查非常重要。

稀疏专家模型比传统模型更自然地具有可解释性，因为稀疏模型的输出是模型中可识别的、离散的参数子集的结果，也就是被激活的 "专家"。人类可以更好地从稀疏模型中提取关于其行为的可理解的解释，这一事实可能被证明是这些模型在现实世界应用中的决定性优势。

稀疏专家模型今天没有得到广泛的使用。与密集模型相比，它们的理解程度较低，构建技术上也更复杂。然而，考虑到它们的潜在优势，最重要的是它们的计算效率，如果看到稀疏专家架构在未来的 LLM 世界中变得更加普遍，不要感到惊讶。

用 Graphcore 首席技术官 Simon Knowles 的话说。"如果一个人工智能可以做很多事情，它就不需要获取所有的知识来做一件事。这完全是显而易见的。这是你的大脑如何工作，这也是人工智能应该工作的方式。如果到明年，有人正在建立密集的语言模型，我会感到惊讶。"

本文为该文编译版本

https://www.forbes.com/sites/robtoews/2023/02/07/the-next-generation-of-large-language-models/?sh=62baac218dbc

本文相关图片均为 Stable Diffusion 生成

来源链接

1）能够产生自己的训练数据以提高自己的模型。

2）可以自我检查的模型。

3) 大规模稀疏专家模型。

推荐专栏