OpenAI 的野心没有终点。长文详解 Sora 的终目标，功能介绍，局限性及技术原理

2024-02-17 01:49

泡芙的元宇宙

2024-02-17 01:49

来源链接

订阅此专栏

收藏此文章

你不断的思考，你的眼里出现了蓝，世人称之为齐马的蓝

作者：Ashley, Ash

校对：Ruilin

1. AI 必胜客——OpenAI 又出大招

昨天朋友圈被 Sora 和这段刷屏了。看样片效果，比 Runway 和 Pika 好太多。除了腿部切换不自然，几乎可以以假乱真。炸裂的这可是持续整整 59 秒的连续视频，一镜到底，比有些演员都强。

来源：OpenAI 官网

OpenAI 每次出手，都有一大批 AI 创业公司应声倒下。今天的倒霉蛋子轮到了 Runway 和 Pika，尤其是 Pika,刚爆火就熄火。3 个多亿的融资到手还没热乎就等来了病危通知书。

让 Runway 和 Pika 一夜凉凉的 Sora 到底是什么？OpenAI 在文生视频领域的目标是什么？Sora 的使用场景和局限性在哪里？让我们一起看看下一个要下岗的倒霉蛋子花落谁家。

2. 世界模拟器——Sora

首先让我们来看看 Sora 究竟是什么？官方给它的定义：作为世界模拟器的视频生成模型。文生视频就文生视频，为什么要说成世界模拟器呢？究竟什么是世界模拟器呢？别急，看完这段话你就懂了。

We train textconditional diffusion models jointly on videos and images.Our largest model, Sora, is capable of generating a minute of high fidelity video. Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.
https://openai.com/research/video-generation-models-as-world-simulators

这段话里有三个要点：

OpenAI 在文生视频这块训练了多个模型，训练数据是图像和视频。Sora 是其中最大的。看来抢 Runway 和 Pika 饭碗这件事是早有预谋。
Sora 可以生成一分钟的高质量视频。想比之下，Runway-gen2 的 18 秒和 Pika 的 3 秒，真的是按在地上摩擦。
视频生成模型是构建真实世界通用模拟器的可行之路。好了，说到这里大家应该就知道 OpenAI 的野心在哪里了。真实世界通用模拟器，说白了就是我们以前做智慧城市的时候提的数字孪生高阶模式。

Digital Twin( 数字孪生)才是OpenAI 做Sora的终极目的。数字孪生听起来高端，其实很好理解。就是对真实的世界进行建模和预测。一般我们将数字孪生的发展分为四个阶段：1. 真实世界 2. 构建真实世界的数字镜像（分为实时镜像和延迟镜像两种）3. 真实世界和数字镜像的交互这导致了数字线程的扩展，数字世界具有影响物理实体操作的能力（可能以自主方式）4. 数字物理孪生对具有一定程度的自主性。5. 进入第五阶段，自治水平不断提高，数字物理孪生对可以作为自主代理在网络空间中进行交互，将本地数据分析扩展到全球数据分析。

来源：Digital Twins’ Future

举一个简单的例子：

在没有互联网出现的时候，我们生活在物理世界，没有虚拟世界，每天在真实的道路上走，这是第一阶段。

然后有了最早的地图软件，他们对真实的道路进行建模，我们可以在数字世界里看到真实的道路情况和交通情况，道路模型不是实时更新的，交通情况是实时更新的。这就是上面提到的延迟镜像和实时镜像，这是第二阶段。

后面地图软件通过各种数据分析，它知道哪条路上经常发生车祸，会提醒我们要注意，这个时候数字世界模型开始影响我们真实生活中的操作，这是第三阶段。

到了现在我们正在逐步进入第四阶段，地图软件上实时显示道路的交通情况，根据数据模拟告诉你要走哪条路，我们会实时受到他们的影响，而这种实时的预测就是自主性的。同时现实生活中的决策也会影响物理世界模型，比如某人热爱探险从庄稼地里走过，地图软件就认为这里有一条路，标记成道路，后面推荐给其他人（是谁家的智障在这里就不点名批评了）。

第五阶段是建立在前面几个阶段都成熟以后。大家可能注意到了我一直在强调实时。实时功能需要依托强大的传感器系统。在控制理论里面，传感器和执行器是一对好基友。第五阶段就是执行器发力的时候，这个时候数字大脑推理出的预测并给出建议让 AI 来执行。这个场景下对应的就是自动驾驶的终局，AI 预测我走哪条路最好，然后我的车自己就按照它的建议跑。

所以，马斯克为什么从一开始就对 OpenAI 感兴趣，出走后自己也要搞大模型，原因很可能就在这里。无论是 Google，OpenAI，或者马斯克的 xAI,终极目的都是构建世界模型，这或许就是他们心目中的 AGI。

说得再通俗一点，就是《流浪地球 2》里面的 MOSS。一个强人工智能的化身，通过构建真实世界的模型，通过强大的算力推演不同选择导致的结果。通过自己的行为影响物理世界的走向。最终让世界按照自己的选择发展。

3. Sora 功能介绍

看到这里估计你也累了，我们看看小视频放松一下。了解一下 Sora 到底都能做什么？到底会不会让你下岗。让 Sora 给 AI 视频圈一点震撼吧！

文生视频

给 Sora 这段文字，它会一键生成下面的视频：

an-old-man-wearing-purple-overalls-and-cowboy-boots-taking-a-pleasant-stroll-in-Johannesburg-South-Africa-during-a-beautiful-sunset

输出视频。来源：OpenAI 官网

2. 图生视频

给 Sora一个Dall E 生成的小狗照片，它就能让小狗动起来，你别说，还是挺逼真的。

输入照片（来源：OpenAI 官网）

输出视频（来源：OpenAI 官网）

3. 时间上拓展视频

给 Sora 一段视频，它可以自动生成前面或后面的视频。下面这个例子给了它一个结尾让 Sora 生成开头，所以每个开头都不一样，但是结尾一样的。

输出视频（来源：OpenAI 官网）

4. 视频编辑，一键让视频背景换风格！

输入视频（来源：OpenAI 官网）

输出视频（来源：OpenAI 官网）

5. 我最喜欢的视频间无缝过渡，一键生成换装视频！耐心看完哦，真的很震撼。

输入视频 1（来源：OpenAI 官网）

输入视频 2（来源：OpenAI 官网）

输出视频（来源：OpenAI 官网）

4. Sora 的局限性

看了上面谁不得说一句 OpenAI 牛逼！你大哥还是你大哥。

但是目前还是有点局限性的。那就是 Sora 它不懂力学。牛顿老师上的课是一句都没听进去。它不能准确地模拟许多基本互动的物理特性，比如玻璃破碎。对于其他互动，如吃东西，并不能百分百准确生成物体状态的变化。

5. Sora 的技术原理

OpenAI 对于 Sora 的技术原理没有放出太多消息。内行不用看，外行看不懂。

总结一下就下面几点：1. Transformer 架构；2. 扩散模型；3. 借鉴了 LLM 的文本标记。属实是没什么好说的，等官方放出更多资料吧。

- End -

肝了 5 个小时才写完，观众老爷们给帕鲁一个免费的关注吧，我会不定期分享 AI 与 Web3 技术以及商业化的思考。你的支持是小帕鲁持续更新的动力，自我模型与 AI 游戏化是我们团队的研究方向。后面有空来介绍一下 AGI 的两大形态——世界模型与自我模型。

Reference:

Digital Twins’ Future

Video generation models as world simulators

来源链接

【免责声明】市场有风险，投资需谨慎。本文不构成投资建议，用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

数据请求中

数据请求中

在 App 打开

推荐专栏