一类强大的新型大型语言模型正在使机器有可能以可信的、甚至有时是超人类的结果来书写、编码、绘画和创造。
原文标题:《Generative AI: A Creative New World》
撰文:SEQUOIA
编译:Evelyn
人类善于分析事物。但机器可能做的更好。机器可以分析一组数据,并在其中找到模式,用于多种用途,无论是欺诈或是垃圾邮件的检测,预测你的快递的 ETA,还是预测下一步该给你看哪个 TikTok 视频,等待。它们在这些工作上变得越来越聪明。这样的机器被称为「分析型 AI」,或传统 AI。
但人类不仅擅长分析事物,也擅长创造。我们写诗、设计产品、制作游戏以及编写代码。直到最近,机器还没有机会在创造性工作方面与人类竞争(因为它们的行为被归为分析和死记硬背的认知劳动)。但是,机器才刚刚开始善于创造有意义和美丽的东西。这一新类别被称为「生成型 AI」,意味着机器正在生成新的东西,而不是分析已经存在的东西。
生成型 AI 正在不断改变,不仅只是更快、更便宜,同时也在某些情况下创造的东西可能比人类手工创造的更好。每一个需要人类创造原创作品的行业(从社交媒体到游戏,从广告到建筑,从编码到平面设计,从产品设计到法律,从营销到销售)都有可能被它们重新来过。某些功能可能会被生成型 AI 完全取代,而其他功能则更有可能在人类和机器之间紧密的迭代创造周期中茁壮成长,但生成型 AI 应该在广泛的终端市场中释放出更好、更快、更便宜的创造力。我们对此的梦想是,生成型 AI 将创造和知识工作的边际成本降至零,产生巨大的劳动生产率和经济价值,以及相应的市场容量。
生成型 AI 所涉及的领域(知识工作和创造性工作)覆盖着数十亿的工人。生成型 AI 可以使这些工人的效率和 / 或创造性至少提高 10%:他们不仅变得更快、更有效,而且比以前有更强的能力。因此,生成型 AI 有可能产生数万亿美元的经济价值。
生成型 AI 与更广泛的 AI 都有着相同的「为什么是现在」的疑虑:更好的模型,更多的数据,更大的计算。这个类别的变化比我们所能捕捉到的要快,但也值得我们来概括性地回顾一下最近的历史,以便把当前的时刻也放在背景中。
5 年多以前,小型模型被认为是理解语言的「最先进的技术」。这些小型模型擅长分析任务,并被部署在从预测交付时间到欺诈分类的工作中。然而,对于普遍的生成任务来说,它们的表达能力还不够强。生成人类水平的写作或代码仍然只能是一个梦想。
谷歌研究院有一篇里程碑式的论文(Attention is All You Need),描述了一种用于自然语言理解的新型神经网络架构,称为 transformers,它不仅可以生成质量上乘的语言模型,同时还具有更高的可并行性,需要的训练时间也大大减少。这些模型是少数的学习者,因此可以相对容易地针对特定领域进行定制。
(随着 AI 模型逐渐变大,它们已经开始超越人类的主要性能基准。SOURCES: © THE ECONOMIST NEWSPAPER LIMITED, LONDON, JUNE 11TH 2022. ALL RIGHTS RESERVED; SCIENCE.ORG/CONTENT/ARTICLE/COMPUTERS-ACE-IQ-TESTS-STILL-MAKE-DUMB-MISTAKES-CAN-DIFFERENT-TESTS-HELP)
当然,随着模型越来越大,它们开始提供与人类相当的水平能力,然后是超人类的成果。从 2015 年到 2020 年,用于训练这些模型的计算量增加了 6 个数量级,其成果在手写、语音和图像识别、阅读理解和语言理解方面超过了人类性能的基准。OpenAI 的 GPT-3 脱颖而出:该模型的性能不仅比 GPT-2 有了巨大的飞跃,并且在他们提供的充满吸引力的 Twitter 演示中也能看出,不管是在代码生成还是冷笑话写作等任务上,它的表现都令人大开眼界。
尽管所有的基础研究都取得了进展,但这些模型并未得到普遍应用。它们体积庞大,难以运行(需要 GPU 协调),不能广泛使用(不可公用或仅有封闭测试版),而且作为云服务使用的费用昂贵。尽管有这些限制,但最初的生成型 AI 应用也开始进入「战场」。
计算变得更便宜。新技术,如扩散模型,缩减了训练和运行推理所需的成本。研究界也在继续开发更好的算法和更大的模型。同时开发者的权限也从封闭测试版扩大到开放测试版,甚至在某些情况下,还开放了源代码。
对于那些一直对大型语言模型(LLM)的使用较少的开发者来说,那么现在就是探索和应用开发的闸门大大开放的时候,各色应用也开始绽放。
(用 midjourney 生成的插图)
随着平台层开始巩固,模型继续变得更好、更快、更便宜,以及模型的访问 / 使用趋向于免费和开源,应用层的创造力爆发的时机已经成熟。
正如移动通信通过 GPS、相机和随身连接等新功能催生出了新类型的应用,我们预计这些大型模型将激励新一波生成型 AI 应用的诞生。正如十年前移动通信的拐点为少数几个杀手级应用创造了一个市场缺口一样,我们预计杀手级应用也将出现在生成型 AI 当中。如今,比赛正在激烈进行当中。
下面是一个示意图,描述了将为每个类别提供动力的平台层,以及将建立在其上的潜在应用类型。
下面的图表说明了我们可能期望看到的基础模型的进展和相关的应用成为可能的时间表。2025 年及以后只是一个猜测。
以下文字描述的是一些令我们感到兴奋的应用场景。这一页上的应用远比我们所记录的要多,我们对创始人和开发者所梦想的创造性应用感到兴奋。
(用 midjourney 生成的插图)
生成型 AI 应用会是什么样子?这里有一些预测。
生成型 AI 应用是建立在 GPT-3 或 Stable Diffusion 等大型模型之上的。随着这些应用不断获得更多的用户数据,他们可以对模型进行微调,从而:1)为他们的特定问题领域提高模型质量 / 性能;2)减少模型尺寸 / 成本。
我们可以把生成型 AI 应用看作是一个 UI 层和「小脑」,它位于大型通用 AI 模型这个「大脑」之上。
今天,生成型 AI 应用程序在很大程度上是作为现有软件生态系统的插件存在的。代码完成运行在你的 IDE 中;图像生成发生在 Figma 或 Photoshop 中;甚至 Discord 机器人也是将生成型 AI 注入数字 / 社交社区的一个理想容器。
还有少数独立的生成型 AI 网络应用,如用于文案写作的 Jasper 和 Copy.ai,用于视频编辑的 Runway,以及用于笔记的 Mem。
插件可能是一个有效的楔子,一方面可以引导你使用自己的应用程序而不需要引入新的应用,另一方面它也以一种聪明的方式来避免了用户数据和模型质量的鸡和蛋的问题(你需要获得足够的使用量数据来改善你的模型;你需要好的模型来吸引用户)。我们已经看到这种分销策略在其他市场类别中得到了回报,如消费者 / 社会。
今天,大多数生成型 AI 演示都是「一劳永逸」的:你提供一个输入,机器吐出一个输出,你可以保留它,或者把它扔掉再试。越来越多的模型在不断迭代,也在变得更加强大,未来,你可以对输出的作品进行修改、完善、提升和产生变化等操作。
今天,生成型 AI 的产出能力被用作生产原型或初稿。应用程序很擅长吐出多个不同的想法,让人们的创意过程也得以进行(例如,标志或建筑设计的不同选项),它们也很擅长提出需要用户微调才能达到最终状态的初稿(例如,博客文章或代码自动完成)。随着模型变得更加智能,其中部分也需要依靠用户数据,我们可以期待这些初稿会变得越来越好,直到它们好到可以作为最终产品使用。
最好的生成型 AI 公司可以通过在用户参与、更多数据和模型性能之间的飞轮而产生持续的竞争优势。要想获胜,团队必须通过以下方式让这个飞轮运转起来:1)拥有卓越的用户参与度→ 2)将更多的用户参与度转化为更好的模型性能(提示改进、模型微调、用户行为作为标记的训练数据)→ 3)利用优秀的模型性能来推动更多的用户增长和留存。他们可能会进入特定的问题领域(例如,代码、设计、游戏)来发展,而不是试图成为覆盖所有人的一切。他们可能会首先深入整合到目前人们的应用程序中,从而实现分发和利用自己的程序,然后尝试用 AI 原生工作流程取代现有的应用程序。用正确的方式建立这些应用程序来积累用户和数据需要时间,但我们相信最好的应用程序将是持久的,并有机会成为大规模的。
尽管生成型 AI 潜力无限,但在商业模式和技术方面仍有许多问题需要解决。有关版权、信任、安全以及成本等重要问题还远未解决。
生成型 AI 仍然是非常早期的。平台层刚刚有了起色,而且应用空间也刚刚开始起步。
说白了,我们不需要大型语言模型的生成型 AI 来写一部托尔斯泰的小说。这些模型今天已经足够好,可以写出博客文章的初稿,并生成标识和产品界面的原型。有大量的价值创造将在近期至中期内发生。
第一波生成型 AI 应用类似于 iPhone 刚问世时的移动应用景观(有些噱头和单薄,竞争差异化和商业模式不明确)。然而,这些应用中有一些提供了对未来可能出现的有趣一瞥,让我们有了方向。一旦你看到机器产生复杂的功能代码或出色的图像,就很难想象未来机器不会在我们的工作和创造中发挥根本作用。
如果我们允许自己做几十年的梦,那么就很容易想象出这样一个未来:生成型 AI 已经深入到我们的工作、创造和娱乐中:备忘录可以自己写;3D 打印能打印出任何你能想象到的东西;从文字到皮克斯电影;类似 Roblox 的游戏体验,在我们能想象出它们的时候就能快速生成丰富的世界。虽然这些体验在今天看起来像科幻小说,但科技进步的速度是令人难以置信的,我们在几年内从渺小的语言模型到代码自动完成,如果我们继续沿着这种变化的速度并遵循「大型模型摩尔定律」,那么这些遥不可及的场景可能会变的触手可及。
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。