别闹了，AIGC 杀不死艺术家

2022-11-2310:19

行业观察

2022-11-23 10:19

行业观察

2022-11-23 10:19

收藏文章

订阅专栏

AI 要取代人类，还有不小的距离。

撰文：Neil Shen

来源：品玩

AIGC 生成内容能取代插画师、设计师的工作吗？或者更疯狂一点，AI 能批量生产艺术作品，乃至从根本上颠覆艺术市场吗？

关于 AIGC 的爆红我们已经和科技界探讨的足够多，今天我们把目光转向从业者——AI 能否取代他们的工作？

下面是他们的回答。

画家自己下笔之前都不知道会发生什么，AI 如何能知道？又如何计算出来？

AI 不能绘制的东西

当我询问能否清楚地辨认 AI 和人类绘画作品的时候，建筑系大四的吴佳佑给出了非常明快的肯定答案。吴佳佑正在申请英国伦敦皇家艺术学院的研究生，而他提交的申请作品之一即是一个由 AI 辅助创作的交互式网站，访问的人可以在图像搭建而成的互动页面中探索由他设计的故事，而组成网站的所有图像都由 Disco diffusion 和 MidJourney 这两个 2022 年大火的 AIGC 人工智能生成工具制作。

图源：吴佳佑提供，基于 AIGC 模型生成后微调

「AI 生成图像在整体光影、结构以及色彩上的表现在我看来无可挑剔，但很多细节经不起推敲。」对拥有绘画功底，又经常使用 AI 工具的吴佳佑来说（他的交互式网站制作花费了四个月的时间，期间用 AI 生成了数千张图），目前 AI 生成图片迥异于人类的风格是显而易见的。

「细节上经常出现色块堆积，过度不自然和线条粗细变化不均匀这样的问题。」吴佳佑拿着我给的几张在推特上颇受好评的 AI 生成图像逐字句的点评起来，虽然只有大四，但他的口吻很自信。

图源：吴佳佑提供，基于 AIGC 模型生成后微调

对一个美术门外汉来说，这样的细节（尤其你很多时候需要放大作品观察）可能并不重要，但对专业人士来说，差别是显著的。「我给同学说了窍门后，大家不管有没有美术功底，基本上都能看出来。AI 生成的图像看不出绘制的前后顺序，因为它背后没有人类绘画的基本逻辑支撑。」吴佳佑说。

问题的根源可能来自算法本身。目前的主流 AIGC 工具都采用了 diffusion model 扩散模型，它的训练基于有文字描述的图片数据，通过对图片反复降噪，AI 学习如何生成符合文字描述的图片。由于文字描述往往是整个图片的内容，因此 AI 深度学习的结果会对整体图片结构和光影的把握比较良好，而相对的在细节上就会失准，因为这些细节往往缺乏文字描述，又相当复杂多变。

这可能是在日漫界最近热炒的 AI 三大画图难题的来历。所谓三大难题，指的是目前的 AI 模型不能完成的三种主题创作：萨菲罗斯游泳、樋口円香吃拉面和哭泣的美少女吃蛋糕。AI 模型在输入相关指令后往往会生成让人啼笑皆非的图片。

图源：Neil Shen 使用 MidJourney 生成

其实 AI 不能完成的创作远不止这三种，比如如果你让 AI 生成游泳的三文鱼，那它大概率给你的图片将会是三文鱼片而不是活蹦乱跳的鱼。

图源：Neil Shen 使用 MidJourney 生成

AIGC 这些人类看来非常匪夷所思的错误同样要归因于算法，一旦给出的指令过于偏狭，比如日漫中较少表现的水中游泳动作，或者其画面内容存在较为复杂多变的物理交互逻辑，比如「吃拉面」图像意味着同时处理人物、手指、面条和筷子这几个在 AI 看来都属于线条的内容时，AI 大概率会存在翻车的现象，因为训练算法所用的样本集可能较少涵盖相关内容，而扩散模型对复杂细节线条交互变化的理解还相当初级。

但细节往往是决定画家艺术风格和水平的决定性因素之一。插画师元元是少见的迄今仍然坚持纯手绘作图的职业画师，研究生毕业于清华美院的元元讲述了科班美术生的结构、线条色彩和细节是如何被训练的——因循着与 AI 生成完全不同的逻辑。

图源：维基百科《万壑松风图》宋朝李唐绘

「老师会让你以操场为主题画十幅同样的画，一开始你会想要把每一条跑道线，按照透视、光影结构完整的画出来，但到某一个时刻，你会想要去若隐若现地处理某些跑道线，有些留白，有些加重，有些干脆去掉。」元元说，「很多时候画家追寻的是这种主观感受，作品生动不是说要画的和真实世界一模一样。」

绘画的过程不仅考验画家个人的技巧（这部分 AI 很好达到），画家作为个人，他的感受，心境乃至成长历程、教育背景等都发挥了影响，这些数据量之庞大都是 AI 所无法计算的。更何况，对元元来说，真正的创作过程在于打破某些规则和逻辑，「国画中很多时候松弛的闲闲一笔就是远山，层云。此处留白，彼处着墨，很多时候画家自己下笔之前都不知道会发生什么，AI 如何能知道？又如何计算出来？」

剥离所谓「低效率工作」意味着什么？

AI 可以模仿的东西

就像对人工智能伦理的讨论一样，科技界对 AIGC 内容对艺术性的冲击的讨论也经常是模棱两可的。技术至上主义者（硅谷的一大部分人）几乎回避了有关艺术性的讨论，对他们来说不断而持续的精进深度学习算法才是重要的事情。随着数据集和算法的优化，艺术性似乎同样能被 01 的字符所表达。

图源：Google Imagen video 论文显示 AIGC 已经能够制作梵高风格的图像 https://imagen.research.Google/video/paper.pdf

某种意义上他们成功了，甚至连谷歌最新推出的基于扩散算法的 imagen video 模型在生成视频方面都能够模仿艺术家风格（比如一只以梵高风格绘就的猫咪在吃东西），而使用 AI 辅助创作在许多游戏美术师的工作中已经是通行惯例。在多家大厂有过游戏制作经验的阿丁在谈到 AIGC 时频繁提到一个词——「喂图」，意思是在游戏人物形象设计的最初——尤其针对一闪而过的 NPC 人物，美术设计会给 AIGC 工具输入很多参考图学习，进而快速生成符合游戏要求的结果。

「虽然还要经过后期的调整，但 AI 现在确实已经取代人力开始承担这部分的工作量了。」阿丁说，他们目前使用较多的工具是较为侧重二次元风格训练的 novel AI ，它基于目前最火的 stable diffusion 模型，数据集由 500 多万张带有文本标记的图片组成。

然而通过「喂图」训练的 AIGC 模型充满了争议。10 月 7 日，推特用户@BG_5you 基于刚过世的韩国著名漫画家金政基作品使用 Stable Diffusion 训练出了金政基风格的绘画模型，此举引来的网友的如潮恶评，而紧接着 10 月底，工程师 Ogbogu Kalu 因为把迪士尼签约画师 Hollie Mengert 的作品未经同意后抓取训练出可以批量生成 Mengert 画风的模型再度冲上热搜。

图源：@BG_5you 使用模型生成的「金政基」风格作品

如果说前者网友一边倒的批评尚主要基于对死者的尊重，后者则将 AIGC 快速发展对现行插画市场的冲击鲜明地点了出来。要知道由于 Hollie Mengert 签约了迪士尼，甚至她本人都不能随意发布自己的作品，而从毕业开始算起，她的画风形成至少花费了十多年的时间，相比之下 Ogbogu Kalu 训练新模型的时间只有几个小时，且成本几乎为零。

图源：左图为 Hollie Mengert 原创，右图为 Ogbogu Kalu 训练的模型生成 https://waxy.org/2022/11/invasive-diffusion-how-one-unwilling-illustrator-found-herself-turned-into-an-AI-model/

如果风格模仿是如此的轻而易举，那么画家十数年的绘画训练有什么意义？他们的商业价值又该被如何衡量？这样的叩问出现在许多插画师的心中。坦率地说，机器学习并不能准确模仿所有风格，但 AIGC 目前的进化程度已经强到开始对许多领域产生冲击。阿丁就直言，既然 AIGC 已经能够介入游戏原画和人物设计（「很多效果图生成的精度比一般画师高多了。」阿丁补充说），现在网上流行的美术外包中很多基础工作很快就将被 AI 替代。

然而，对硅谷来说 AI 风格迁移造成的争议并不是他们考虑的首要问题，技术中立，更时髦的词叫做 AI 的民主化 democratization of AI 是他们的信仰，AIGC 技术潜在的巨大商业前景才是真正重要的。根据彭博社的报道，投资了 stability AI 的 Lightspeed 合伙人 Gaurav Gupta 直言不讳地表示，AIGC 技术根本性地赋予了人们更多的权力，同时让「低效率 inefficiency」工作从内容创作中剥离。

「只要 AIGC 生成内容满足质量要求，我不介意全面使用它。」

AI 将替代谁？

Gaurav Gupta 的表态几乎是在明示 AIGC 生成技术对现有绘画市场的颠覆性冲击。如果我们把绘画市场简单分为商业绘画和艺术绘画两部分的话，前者显然会更直接受到影响。

对于这个问题，在某游戏工作室担任原画师的刘纪扬表现的很轻松，「许多人说它做出来的东西冰冷，我没那么矫情，我就觉得它弄得挺好的，构图颜色都好。更深的内容 AI 目前还做不了，但我觉得它给我们设计师和美术师的前期工作提供了许多思路参考。」刘纪扬说到。

图源：受访者刘纪扬提供

在刘纪扬看来，尽管 AIGC 内容在游戏策划的最初阶段能够辅佐策划更好的表达想要的游戏效果，但它尚不能介入游戏原画师更高阶和精确的工作。「我们的设计，越到后期要求越精确、细致，AI 只能粗疏的在需求非常模糊的时候一次性生成许多选择，但当方向明确的时候，AI 还无法胜任规模化的游戏设计场景。」

图源：受访者刘纪扬提供

相比之下阿丁的看法有所不同：「AIGC 生成的高精度的图片不仅可以应用于前期策划，在游戏的人物设计和场景设计中都将拥有广泛的前景，与之相伴的就是大量腰部以下插画师会失去工作，目前阻挡大规模使用的其实是潜在的法律风险，而不是生成内容的质量本身。」

不只是游戏的前期策划，泛化的商业绘画领域，从影视美术、网站设计乃至图书制作，现有的 AIGC 技术在描绘大场景、特定绘画风格和精细度效果上均有优势，更不必说其成本低、速度快，且不会被题材、风格乃至数量局限的特点。尽管存在类似「游泳三文鱼」这样的问题，但毋庸讳言商业绘画这个过去只能依靠人力的创意市场迎来了最强劲竞争者，首当其冲受冲击的将是对精度和创意要求不那么高的细分领域。

「说实话，只要 AIGC 生成内容满足质量要求，我是不介意全面使用它，因为真的会节省许多成本。」某一线时尚杂志的执行主编在被问及对 AIGC 内容看法时说到。对时尚杂志来说，拍摄大片时产生的置景、灯光、场地成本是一笔不菲的开支，而大片的制作过程往往还受到时间、空间以及人员因素的限制。AIGC 生成技术从根本上解决这些困难，同时还能极大拓展视觉语言的丰富程度——「要是 AI 足够强大，我一个人就能制作一本杂志了不是吗？」实际上，今年美国版《Cosmopolitan》已经使用 MidJourney 制作了一期封面。

图源：Cosmopolitan 官方网站 https://www.cosmopolitan.com/lifestyle/a40314356/dall-e-2-artificial-intelligence-cover/

中国人说「兴之所至」，可 AI 根本无法「起兴」，又能「至」去何处？

AI 有创造性吗？

如果说对商业绘画领域 AIGC 的潜在颠覆性毋庸置疑，那么在艺术绘画领域这个问题就充满了争议。

「如果你水平好的话是永远不可能被替代的。」这是许多人强调的论点。尽管 AI 可以惟妙惟肖的模仿风格，但它不理解图像背后所代表的含义，换言之，AI 不具备真正的创造力。

这不是说 AIGC 完全没有任何创造力，Deepmind 的创始人，当代人工智能领军人物 Demis Hassabis 曾在 Lex Fridman 的访谈中表示，AI 的创造力可以让它通过看数百万张猫的照片来「创造」一只普通的猫，但人类目前还不能把高层次的抽象概念（比如发明象棋规则，而不是教 AI 学会下象棋）用算法准确地表示。

从这个意义上说，探讨 AIGC 的艺术性甚至显得有些滑稽。被问及 AI 的艺术性时，艺术留学机构创始人 Evan 迅速就给出否定回答，他所在的艺术留学机构每年向全世界顶尖艺术学府输送大批学生，AIGC 领域是他们关注的重点之一。「我们学生提交的申请作品主体是不建议过度使用有 AIGC 创作内容的。」Evan 说到。在他看来，艺术品的价值来自于背后的感染力，这种感染力只能来自人，相比之下，AI 作品太过「冷静」、「匠气」。「我可以感受到它每个部分的精巧，但它的灵魂是不统一的，它不够动人。」

图源：维基百科苏轼《寒食帖》被誉为天下第三行书无论线条、留白或造型变化均极富风格韵味。

艺术创作的立意和技法都服务于人本身的思绪脉络，「只要是稍微成熟点的艺术家，他的创作都是精准的。」对 Evan 来说，真正突破和创造性的伟大艺术作品，永远不会拘泥于既有数据的窠臼，没有人的主观能动，AI 作品精巧而平庸。

在自己专栏中大量使用生成图片配图的自由撰稿人小温对此有个精妙比喻：有一类作品创作出来不用写注释，因为作品本身足够牛；另一类则必须要写注释，否则大家不知道看的是什么；但最糟糕的作品就是有没有注释都无所谓，因为作品本身不够好，而文字注释也不够重要。AI 生成作品正属于此类。

「AI 依靠算法以结果生成结果，但人的创造过程最革命性的东西，尝试和试错，打破规则和重塑规则在这个过程中被根本忽略掉了，中国人说‘兴之所至’，可 AI 根本无法‘起兴’，又能‘至’去何处？」小温补充道。

总的来说，AIGC 在艺术领域的实践目前来看更像是一件精准执行的工具，它可以产出精确的结果，前提是人本身已经有了创意的框架。正如文章一开头提到的吴佳佑，很难想象如果没有 AIGC 工具的帮助，他的交互网站所需要的几千张图片该如何获得。而在国外，资深的 AI 生成爱好者已经开始运营 AI 制作电影——除了主创本人的配音，从语言脚本、镜头画面到音效都将运用 AIGC 模型来完成。

图源：吴佳佑提供，基于 AIGC 模型生成后微调

AIGC 的确实极大降低了人们的创作门槛，没有经过技法训练的人现在仅凭自己的想法就能方便创造属于自己的作品，在未来这将重塑人们认知艺术的维度，它的革命性就好像照相机之于油画，在央美艺术史博士小杨看来，这同样有一个渐进的过程。「新工具的出现总会带来对艺术本质理解的新思考，这在历史上已经发生了不止一次，相比于艺术技术的革新，艺术理论总是相对滞后的。」

话虽如此，小杨之前并没有亲自尝试过 AIGC 工具，对于网络上充斥着的 AIGC 生成图片内容，她从专业角度以「不和谐」三个字概括。在推荐下小杨第一次使用 MidJourney，选择 Gothic letters （哥特式字母）和她名字拼音的缩写作为关键词，由于服务器不稳定，MidJourney 一口气返回了三组共 12 张图片，小杨看了之后说，这种水平还不如我从随便哪个中世纪手抄本里剪切来的方便和好看呢。