试水 ChatGPT，切不可以身家试法

2023-02-0814:34

肖飒 lawyer

2023-02-08 14:34

肖飒 lawyer

2023-02-08 14:34

收藏文章

订阅专栏

深度合成归根结底是人工智能技术，尤其是算力发展的产物，其独特的创造性注定会逐渐走入生产生活，因此监管体系和合规体系的构建是必然路径。

撰文：五火球教主

在之前的文章（《热度「狂飙」的 ChatGPT，亟待「合规刹车」》）中我们讨论了当红风头正盛的 ChatGPT，分析了它的技术本质、应用场景和法律风险初探。而在近期的《流浪地球》系列电影中，「虚拟数字人」的概念博人眼球。这不禁让我想起另一个红极一时的概念， 「深度伪造（DeepFake）」、「AI 换脸」。

深度合成技术

事实上，「虚拟数字人」的构建离不开包括伪造技术在内的深度合成技术，而 ChatGPT 是深度合成领域下的一类模型。数据深度合成 (Deep Synthesis) 本身是一个中性概念，泛指借助深度学习算法模型等智能化方案自动生成文本、图像、语音、视频等数据内容的一系列处理技术。其中文本因为其较强的字符特征，只需满足空间序上的合理性，与视频、音频类型数据的处理思路略有不同。

在 ChatGPT 一类的大型语言模型中，包含预训练和下游任务训练两个部分。在预训练阶段，模型从大量的数据中学习复杂的上下文联系，并将这种联系向量化。Next-token-prediction 和 masked-language-modeling 是用于预训练语言模型的核心技术。在第一种方法中，模型被给定一个词序列作为输入，并被要求预测序列中的下一个词，而在第二种方法中，其输入句子中的一些词被替换为特殊 token，例如[MASK]，模型被要求预测应该插入到 [MASK] 位置的正确的词。同时，在下游任务训练中，In-content Learning（语境学习）被提出以提升模型在各个场景任务下的表现能力。譬如标注者会给模型一个提示性的输入，让模型更加清楚的感知到应该输出的范式。

在图像、音频类深度伪造模型中，「生成网络」（generative network）或「生成器」（generator）负责制作复制原始数据集特征的合成数据如图片、音频记录、视频等，并制作「深度合成物」；鉴别网络（discriminative network）或者说鉴别器（discriminator）则负责识别合成的数据，检测该视频是否为伪造。通过反复的「无监督学习」过程，「生成网络」制作并修改「深度合成物」，直到「鉴别网络」无法再检测出该合成物系经「深度合成」，最终形成高保真的信息内容。

总体而言，基于深度学习的数据合成技术随着算力的发展逐渐从研究型走向应用型，主要应用在文本合成、视觉合成、听觉合成等三大领域，因循数据收集、模型训练、伪造内容等核心步骤，创造虚拟数字人及其所处的生态环境。

相关戏仿性应用产品迅速迭代，一方面，数据深度合成的正向应用将创建的文本段落、虚拟角色、声音模拟、视频渲染等广泛应用到社交通讯、娱乐文化等众多场景之中，提升信息处理效率，增进临场体验。另一方面，深度合成内容难以精准及时地予以鉴识，部分主体传播虚假信息，操控受众反应，严重威胁整个社会的安全体系与保障机制，因此亟待构建和完善规模化的规制体系。

《互联网信息服务深度合成管理规定》解析

我国国家互联网信息办公室、中华人民共和国工业和信息化部、中华人民共和国公安部在 2022 年 11 月 3 日通过了《互联网信息服务深度合成管理规定》（下称「规定」），该规定基于深度合成应用的定性和风险的评估，从而提出包括内容标志、主体报备、用户实名制、内容审核机制、救济机制、个人信息保护和数据安全等方面的规制措施。

内容标志

深度合成服务提供者（下称「服务提供者」）对使用其服务生成或者编辑的信息内容，应当采取技术措施添加不影响用户使用的显著标识，从而防止公众混淆误认。

主体报备和用户实名制

具有舆论属性或者社会动员能力的服务提供者和技术支持者应当按照《互联网信息服务算法推荐管理规定》履行备案手续，并在网站、应用程序公示，同时按照国家有关规定开展安全评估（相关合规流程仍在摸索之中）；服务提供商需要对深度合成服务使用者进行真实身份信息认证。飒姐团队认为之后会出台针对深度合成内容专门的备案手续。

内容审核机制和救济机制

服务提供者应当加强深度合成内容管理。采取技术或者人工方式对输入数据和合成结果进行审核，建立健全用于识别违法和不良信息的特征库，完善入库标准、规则和程序，记录并留存相关网络日志。

服务提供者应当建立健全辟谣机制。发现利用深度合成服务制作、复制、发布、传播虚假信息的，应当及时采取辟谣措施，保存有关记录，并向网信部门和有关主管部门报告。

个人信息保护和数据安全

服务提供者和技术支持者应当加强训练数据管理，采取必要措施保障训练数据安全，若数据集中包含个人信息，则需遵循个保法相关规定和配套标准。

算法安全评估

规定要求合成服务提供者和技术支持者应当加强技术管理，定期审核、评估、验证生成合成类算法机制机理，强调了处理具有生物识别信息、可能涉及国家信息的模型、模板需要进行安全评估，相关审核、评估机制尚未明确要求。飒姐团队认为该类评估由于企业对核心技术披露的限制以及当前评估技术的局限性，困难重重。